从垂直领域业务场景梳理需求,设计解决方案算法架构,开发PoC验证算法实现,为项目落地赋能。
96
◆ 协助指导机器学习、深度学习、联邦学习的算法平台功能模块的产品设计与开发。
85
◆ 地形分析路径规划等运筹功能接口开发。
20
◆ 负责数控机床MFC用户界面功能、电机控制指令的单片机汇编开发测试。
ba
开发经验
e4
◆ 项目名称:多机器人调度平台 塔斯克
24
◆ 项目描述:通过对多机器人调度仿真平台各环节的不断改进,提前发现地图的拥堵路段,规划针对
性的策略,降低仓库密集存储环境下多车拥堵,提升多车调度平台运行流畅度,降低实施成本。
◆ 我的职责:单车的运动学控制模型,生成路径插补序列,发布订阅到rviz实现仿真。对未分配任务
召回排序得到候选打包,与车组成对,结合已分配任务,结合地图挖掘的关键路径参数,计算距离
和电量代价分,更新超时代价,通过全排列或2-opt寻找代价分最低路径;使用贪心匹配或km从
打分矩阵寻找最佳匹配;更新分配状态;重调度改善分配结果,定期将分配不好的任务和车队召回
排序,重新分配,使用较好的新分配结果更新。将重调度等用计算图封装,便于后期迭代维护。将
计算图各节点的输出按照warning,info,error等分级的状态码输出,同时对完单量突降、路效
比突降、超时率突增等异常指标告警输出,协助运营快速排查问题。
期待与您一起,共创辉煌!
◆ 技术要点:golangC++VRP 计算图 rviz
◆ 项目名称:外卖配送履约分单 滴滴
◆ 项目描述:通过对履约分单各环节的不断改进,在保证用户体验的前提下,提升配送效率,降低运
营成本。
◆ 我的职责:通过hive表对线上分单数据的分析,发现有14%的打包订单因为超时10分钟以内,只
能分开单独配送,单独配送又会出现较多的商家出餐超时而引起的早到。对模拟分单阶段增加
wide&deep判断打包并补时,结合分单开始阶段对Redis订单池订单创建时长初筛,高峰期拉长
分单间隔,积攒更多可打包订单,提升打包比例;对路径规划阶段的局部搜索,将超时节点往前挪,
早到节点往后挪,实现快速tsp;在重调度阶段,对非共乘和绕路订单增加召回排序,在打包和tsp
阶段过滤低路效比打包单,实现降本提效。
◆ 技术要点:PythonSQLgolang 召回排序 TSPVRP
~
~
◆ 项目名称:便利店人员排班 便利蜂
◆ 项目描述:每周根据门店的销量预估计划、营业时间和店员的可用时间,结合工作项分布,计算理
nQ
想班次数量和起止时间,将该门店下有可用时间的店员填到对应班次上,尽可能提升班表执行一致
m
G
率,降低运营成本。
O
◆ 我的职责: 对下发的算法班次和考勤班次diff,对匹配不一致的人班badcase,结合业务,统计突
dQ
破算法的一周最多上班次数从5个改为6个、最长班次时长约束从12小时改为16小时;对于不
符合员工偏好导致的无班打卡,一方面通过管控和系统,让店员主动给出精确可用时间区间,另一
_K
方面从历史数据挖掘其上班偏好,即从最近12周考勤里,按照工作日休息日聚合出店员的长短班、
-U
白夜班次数、每一天的班次起止时间次数以及累计工时,使用由近及远的指数衰减权重求和,作为
G
运筹算法目标,从而排出符合其偏好的班次,实现锁人;使用FM对偏好不明显的员工预测其偏好;
xJ
对于跨店连班员工,使用FM和评分卡预测其偏好门店,先将其排在偏好的门店,然后将其剩余时
W
间排在其它门店;对于其它针对每一天的入离职变更员工,在一周之内,创建日班表任务,以0~t-1
lV
的已排班表作为初始解,排出t日班表;使用KL散度等指标衡量策略执行前后班表的稳定性,来
6F
评估策略线上效果;通过这些措施,使得下发班表一致率从50%提升到70%。
9S
◆ 技术要点:pandasread_sqldataframemergeortoolsaddHintFM
42
◆ 项目名称:商家订单数据泄露检测 京东集团
R
◆ 项目描述:对消息队列接入的登录、订单日志,执行异常检测的mapreduce定时任务,挖掘日志
1X
中数据泄露异常攻击事件,通过上下文关联完整的攻击链路,降低误报,提升监控响应效率。
b5
◆ 我的职责:
48
对采集的商家登录订单日志,根据历史数据泄露事件编写异地登录、登录爆破、非可信设备登录、
访问订单超量、爬虫窃取订单、海外ip登录访问订单等异常监控覆盖规则,使用3sigma、加权平
96
均、环比、stl+gesd、arima、iforest、相对熵、知识图谱异常检测算法工具对访问订单时间序列
85
等各个规则阈值做精细化调节,将各路告警做权重融合,按风险度排名降低误报;使用dbscan做
20
商家活跃度画像;盗号下单检测。
ba
◆ 技术要点:mapreducekafka 异常检测
e4
◆ 项目名称:dmp年龄分类 跨越
24
速运
◆ 项目描述:从日志提取app列表等特征,构建到用户年龄的多分类模型,实现广告平台用户年龄画
像,应用于广告推荐的年龄标签。
◆ 我的职责:
编写mapreduce从日志文件根据phone关联device_id,app_list,model等,去除异常重复样
本,将年龄分段做标签,用hiveSQL获取top6万的app列表,对每个样本独热编码,用doc2vec
做embedding,与onehot的数据和tfidf提取的传输文件名特征拼接,保存到libsvm格式,用
FactorizationMachine对高维稀疏特征做特征交叉, 用onevsrest构建二分类模型,用
LightGBM构建多分类,调参,计算模型泛化的混淆矩阵。
期待与您一起,共创辉煌!
◆ 技术要点:mapreduceshellLinuxhivedoc2vec 因子分解机 tfidflrgbdt+lrwide&deep
◆ 项目名称:道路数据开发 跨越速运
◆ 项目描述:对物流数据做算法研发,提高效率,降低成本。
◆ 我的职责:
产品业务中用到的相关文字识别、数据挖掘、分类、回归、聚类等算法研究和产品开发,负责核心
算法的代码实现和移植,根据项目进度,推动产品灰度上线,迭代优化。
对司机步行轨迹做数据挖掘,DBSCAN分析停留点,比较轨迹相似度,根据往返次数计算单次距离,
结合期间的步数距离,计算搬运绩效距离;将模型通过Flask对外提供HTTP接口服务。
◆ 技术要点:c++11linuxpythonshellJavakalmanFlask
◆ 项目名称:个性化push 跨越速运
◆ 项目描述:生鲜电商个性化push项目,对用户的历史订单商品列表和浏览商品记录,构建精准
~
~
push,提高push打开率和购买率。
◆ 我的职责:
nQ
将(用户id,购买的历史商品id列表)输入到pyspark的word2vec训练,通过预测得到用户购
m
G
买行为上的embedding向量,计算该向量与每个商品的embedding向量的余弦相似度,排序,
O
得到行为上很相似的相关推荐;将(用户id,商品id,看的时间/点击次数)分别作为userCol、
itemCol、ratingCol读入spark的ALS训练,得到内容的embedding,输出用户和商品的
dQ
embedding向量,通过近邻搜索,实现给用户推荐物品、给商品推荐商品、给用户推荐用户;使
_K
用DNN网络权重实现embedding;使用faiss近邻搜索库,流式添加embedding,利用降维、
-U
聚类、索引树实现ms级别搜索。最终个性化push比人工的无差别push打开率有3%提升。
G
◆ 技术要点:item2vec 协同过滤矩阵分解 faisspysparkembedding
xJ
◆ 项目名称:dmp语言分类 跨越
W
速运
lV
◆ 项目描述:对海量用户app传输的文件名使用的语言和设置的语言,结合用户的GPS定位信息对
6F
印度用户从21种主流语言中打语言标签,用于构建用户的语言标签。
9S
◆ 我的职责:
42
编写mapreduce从用户传输日志抓取用户的传输内容,从hive表查询传输最多的6万标题内容,
R
用Linux命令及正则表达式去除脏数据和重复项,将人工标注的语言泛化到所有用户,将抓取的定
1X
位信息映射到邦级别的用户,将种子样本的语言映射到传输者。从维基百科抓取小语种语料训练
b5
LSTM模型。
48
◆ 技术要点:mapreduceshell脚本 Linux命令 hive查询 正则表达式 doc2vec
◆ 项目名称:警犬脑电波识别 翼石科技
96
◆ 项目描述:公安部的项目,由脑电心理学专家指导理论,根据脑电特征预测狗是否闻到毒品或炸药,
85
实现“让狗说人话”。
20
◆ 我的职责:
ba
根据插入标记位置读取正例和反例数据段,结合脑电视频处理缺失值,将所有数据切分成等长样本,
e4
做无相移带通滤波,离散小波变换,加载所有样本及类别标记,将数据切分成训练集和测试集。
24
使用SVM、逻辑回归、随机森林、AdaBoost、xgboost、LightGBM、隐马尔科夫模型训练数据,
调参,交叉验证准确度,将训练好的模型数据写入文件,以备前端使用。
设计一维卷积神经网络,CNN、LSTM等深度学习模型训练模型,使用scikit-optimize优化模型
参数,将模型数据保存到文件,方便下次快速加载。通过网格搜索并行多核joblib加速模型参数寻
优。结合不同分类算法进行投票,提高模型分类准确度,用交叉验证的precision,recall,roc,
auc评估各个模型性能。
◆ 技术要点:numpymatplotlibscipyt检验法进行置信区间的假设检验 小波变化 ICAPCA
sklearnLDAsvmlrrandomforestKNNK-meansAdaBoost 并行网格搜索调参 交叉验证 准
确度计算 Haar特征和LBP特征,使用蛇形、k均值和高斯聚类等对频谱图分割;使用交叠比IOU
期待与您一起,共创辉煌!
对模型预测区域准确度进行评估。频谱图的目标检测。不同分辨率的频谱图的降采样和滑窗处理
TensorFlowKerasCNNRNN的搭建 样本输入 批归一化 对图像中有无目标、目标出现概率以及
像素位置向量的计算 dropout 根据损失函数调参 根据评估结果对漏检目标施加惩罚参数 调loss
cuda编程 用学习曲线和验证曲线调试算法 joblib并行计算 模型参数的文件写入和文件加载
◆ 项目名称:人脸识别库对标 翼石科技
◆ 项目描述:训练移动端人脸识别算法模型,将模型的结果输出,驱动后端avatar动画交互。
◆ 我的职责:
计算机视觉3D和2D领域相关图像处理、建模、渲染、识别等算法和应用领域研究与产品开发;
与研究机构合作,参与相关领域先进算法、专利布局等研究;负责其他相关算法的核心代码实现或
移植。
◆ 技术要点:Appmagics,sensetime,arcsoft,face++,ulsee,faceunity库在iPhone上对多张
~
~
图片和连续帧的图片读取,类型转换,朝向处理,引擎创建,使用分类器对图片中人脸框detect,
align获取人脸关键点,获取数据类型转换。对detect速度,准确度,耗用资源等进行比较,结果
nQ
写入csv文件;
m
G
从服务器下载多张样本图片到测试机,逐个detect,将关键点写入xml或txt文件。
O
◆ 项目名称:toB项目 安德建奇
dQ
◆ 项目描述:对各个垂直领域业务场景设计机器学习、深度学习等算法,帮助客户降本增效。
◆ 我的职责:
_K
◆ 使用gdal加载地形网格数据,解析山坡、河流、沟壑等区域,开发基于A*的指定起点到终点区域
-U
的可达路径接口。
G
嵌套解析铁水成本历史数据,滤波去除噪声,构建高精度的成本回归模型,对配矿优化输出的配料
xJ
表评验证成本是否比人工配料低。
W
从历史数据、专利里解析生产一个单位产品所需的各项约束,设置产品成本目标函数,使用gurobi、
lV
ortools等求解器寻找成本最低的配料方案。
6F
对产品缺陷图像使用labelImage标注类型,数据增强,输入YOLO训练,实现对流水线产品缺陷
9S
自动检测。
42
从客诉反馈、日志里使用tfidf、textrank提取关键词,构建词云,识别意图;使用word2vec计
R
算词向量,余弦相似度找关联词语;使用doccano标注实体,输入bert+crf做命名实体识别,将
1X
实体自动构建知识图谱,用于产品质量根因分析。
b5
将图像输入vgg等cnn网络,提取中间层权重作为embedding,增加通过局部敏感哈希存储,
48
实现海量图像的快速以图搜图,提高轮毂设计效率。
使用arima、lstm构建时序预估模型,搭建产品、原材料的价格和销量预估,帮助指导安排生产。
96
使用paddleOCR识别财务发票扫描件图像,构建自动解析引擎。
85
搭建基于spark的机器学习、基于tf的深度学习、联邦学习平台。
20
◆ 技术要点:机器学习 深度学习 分类 回归 排序 ortools运筹优化
ba