足球篮球运动员号码检测与识别 在篮球比赛、足球比赛近景视频的图片流中,识别图片中篮球运动员、足球运动员的号码牌 项目中我负责标注数据清洗、选用 base code(目标检测和文本识别)、base line(base code 的map 在 pascal 达到 70 在coco 达到 50,自己数据集 50 以上并人工查看 bboxes效果, 文本识别特定数字号码识别的 acc 达到 80%)、模型训练 至满足 base line、在 k8s上部署服务化端口(传入图片 base64等 json,返回 bboxes points、numbers等 json) key difficulty:base code,基于 detectron和aster;loss and over-fitting,调参和公开数据集 main contribution:map=54和识别准确率acc=84%达到预期,one-stage(YOLO) two-stage(RCNN), retinanet more useful, aster cross entropy loss work 现场云中文字幕识别 在 magic现场云、影视综艺节目、新闻栏目视频的图片流中,识别出图片中标准印刷体字幕的文本框和文本 项目中我负责数据清洗(伪造数据,与测试数据非同源)、ocr中文识别(stn+cnn+lstm)、base line(文本编辑距离达到百度 效果 dit=0 acc=50.73%,并发数达到 100)、模型训练至满足 base line并压缩模型、在 k8s完成服务 demo移交工程人员 key difficulty:acc提高不了,cnn more layer,lstm more layer,add public data,adjust parameter;fps太低,模型 压缩(data and net异步,逐层降层,降采样,针对性数据,数据蒸馏,模型量化 eg in fact,gpu cpu异步、mul batch pre 根据业务、缓存队列 more useful) main contribution:中文 ocr识别文本编辑距离 dis=0 acc=64.70%,压测 QPS=100+ RT 322ms,aster cross entropy loss and ctc loss no difference,工程优化比模型优化性价比高,研发快节约调用百度 ocr成本