主要负责腾讯混元大模型、内容匹配、内容分类、信息抽取,多粒度内容生成等内容理解基础算法能力的研发,具备丰富的场景大模型训练
和调优落地经验。在运营与推荐统一体系的支撑下,为构建良好的个性化和基础推荐提供支持,满足产品需求,提升用户体验。技术栈主要
分为四个方面:
负责大语言模型的训练和调优、信息抽取、摘要生成、热点话题生成、重复体感控制、信息增益识别等内容理解算法,具有多字数、多
行文风格内容抽取和生成、Diffusion等AIGC相关技术落地经验。支持腾讯新闻、腾讯视频、微信公众号、QQ浏览器等多个产品,并强
有力支撑下游产品的推荐和DS,有效的提升运营效率,大幅度降低审核成本,作为公司级腾讯唯一的摘要生成能力,单日访问量百万
级
负责图文和视频内容理解,包括多模态预训练大模型、图文和视频标签生成、视频理解、视频分类等基础算法能力的建设,构建内容分
类体系,引导用户找准兴趣点,捕捉细粒度兴趣,提高个性化精度,使得中长尾兴趣与流行兴趣能够合理平衡
参与开发腾讯预训练模型框架TencentPretrain(已开源),结合数据挖掘、主动学习、置信学习和半监督学习等增效方案,构建工业
化模型提效系统,解决模型效果衰减、低质内容攻防、提升模型能力和场景泛化能力、降低新/老模型Leadtime
负责虚拟人、视频智能合成相关研发工作,涉及文本摘要、NER、图文匹配、TTS、视频渲染、字幕对齐等技术,目前多个项目已商业
化,支持汽车智能座舱、融媒体、腾讯新闻等产品,并在腾讯AI平台对外提供服务
负责的重点项目
内容生成项目(AIGC) 2019.1-至今
项目背景: 在腾讯724、腾讯视频、微信公众号、QQ浏览器等多场景需求的背景下,算法中心自主研发了摘要引擎,基于深度语义理解模
型,自动获取新闻文本中的关键信息并生成指定长度的新闻摘要,目前人工通过率90%,通过内部/外部评测,中文摘要效果都大幅度超过
搜狗 32% ,百度两大业界竞品 15.8% ,同时为腾讯内外多种业务提供服务支持
担任职务: 项目负责人
参与人数:5人
业务成果:
摘要效果大幅度超越业界竞品,摘要作为公司级核心项目,已接入公司算法中台,目前单日平均请求量在200w以上
支持多种类型产品, 包括车联网智能座舱、新闻客户端、 新闻号(创作者平台)、微信订阅号、 腾讯AI开放平台、智能音箱、融媒体中
心、QQ浏览器搜索等
高价值数据挖掘,提升运营效率,降本增效:单条审核时间缩减节77%,审核修改成本降低50%,仅新闻724每月就可节省成本13.5w
具体工作 :
负责构建场景数据的获取、分析、挖掘和标注完整自动流程,挖掘高价值样本,建立case管理与分析机制,约节省40%的标注成本
负责摘要系统从0到1算法和服务搭建工作,其中摘要系统由多介质预处理、篇章理解、摘要模型、 柔化四个算法模块组成,涉及技术
点:文章脉络分层模型、新闻摘要预训练模型、句粒度抽取模型、信息增益识别、文本生成模型等多角度内容理解模型
自研大模型训练和调优,专注支持多种风格、可控内容生成,涉及技术:Prompt-based Finetune、Parameter-efficient Prompt
Tuning、In-context Learning等,目前作为腾讯中台的唯一的内容生成能力支持10多个产品线的落地,外部可体验
负责摘要在各类场景落地过程中涉及数据标注、项目沟通、风险评估、技术方案、人力排期等工作,梳理并推动各方产品/运营形成统
一的摘要标准和逻辑,提升审核和迭代升级效率
多模态内容理解项目 2021.2-2022.10
项目背景:随着用户对图文和视频的多样性需求在不断增加,而内容搜索、推荐、内容聚合都离不开基础分类和标签识别技术。根据腾讯新
闻目标用户的内容供给数量和质量不足的问题,我们需要引导运营找准兴趣点,进行更高效的内容生产。在推荐模型倾向于高热item和多数
人群,行为样本又进一步强化的背景下,需要更丰富的特征提升个性化分发
担任职务: 图文/视频融合标签项目负责人、视频分类/多标签识别项目负责人
参与人数:10人
业务成果:
外显标签快速从零做到百万,准召超出TEG、浏览器、内平Tag 30pp 以上,及时满足了运营产品数十项需求
为推荐侧提供细粒度标签特征,累积提升人均深度PV 1.9%,同时显著提升分发多样性和人均停留时长
目前标签生成项目已作为算法研发部的基础能力,为新闻客户端标签外显、推荐、创辅等下游产品提供支撑
具体工作 :
负责图文/视频融合模型和底层模型的训练数据挖掘采样、标注管理、双周评测等流程的搭建
设计标签融合模型, 融合不同角度的底层标签模型结果, 并将tag score归一化。 涉及技术: 图文DNN融合模型引入图文/视频swin
语义特征、自研底层标签模型、实体特征、GAT共现信息、标签预训练模型(P 0.85, R 8%, 覆盖 9.9% 等,融合模型准召指标大幅度
提高 20%,尤其在易混淆、实体标签上效果明显。
打通多介质内容+标签完整生存周期,支持UGC、运营RULE、上位词、同位词等多源标签,提升模型多样性和TAG召回能力,支持归
一和消歧解决信息冗余和外显一致性问题。支持标签优质等级和运营等级、完整机器+人审流程, 作为核心基础算法能力为下游各类场
景提供支撑
负责两个底层模型(核心标签分类/视频分类)研发,涉及技术:Late Fusion、VideoSwin、Bert、Vggish等信息建模能力,基于
Transformer的特征融合模块,在特征融合部分采用了Skip-Connection结构,共享主干网络用于多标签识别和一二级分类的多任务融
合。多标签识别加入GCN模块并改进特征融合方式后,多标签任务召回提升明显。设计了一套自监督和有监督结合的预训练方案,得到
最终的多模态预训练模型,作为中台的大模型支持了大量多模态内容理解任务。
AI模型工业化提效项目(Robot) 2019.6-2021.2
项目背景:基础算法是内容运营和推荐中的重要组成部分,随着线上内容的不断增长和变化,内容处理算法的感知灵敏度和需求响应速度需
要不断提升。热点内容会不断更新,低质内容攻防会不断升级,分类标签需要不断推陈出新,对模型的线上效果维护和研发效率提出了挑战
担任职务: 项目负责人
参与人数: 5人
业务成果:
线上算法模型效果指标得到有效保障,大幅度提升了模型的感知能力和迭代速度:通过Robot对在线模型进行巡检,模型指标衰退保持
在10%以内,提升了模型稳定性
降本增效,大幅度降低了迭代研发成本:线上模型迭代LeadTime降低30%
多部门联合研发基础算法特征平台和通用NLP算法框架:提升已有样本、特征、模型复用率,降低模型开发时长。通过主动学习、半监
督学习等能力获取高价值样本, 结合主动学习和自动化迭代流程,样本标注量下降33%,有效的降低了标注成本和标注时长
具体工作 :
目前已支撑基础算法中心所有模型周期性巡检评测,提升了模型衰减的感知灵敏度
多部门联合打通各平台(线上服务平台,特征管理平台, 数据标注平台、机器学习平台、服务发布平台),实现算法研发全流程的自动
化,消除各环节流转中的沟通、编码、调试等成本问题,迭代更新流程自动化,提升了响应速度
通过主动学习、半监督学习、数据增强、迁移学习等技术方案,降低标注成本和开发时间,提升了训练效率及模型效果;通过实现模型
训练与样本标注由流式变并行,提升模型迭代速度。 推动算法中心全部项目接入ROBOT,其中图文标题党模型在自动巡检时发现F下降
(0.62 0.18),模型选用UDA AL能力,将F提升到0.64(两次自动迭代),单次迭代比以往效率提升73.7% 48h→12.64h),节省
40%样本标注量
共建开发通用算法平台,通过特征复用、主动学习等通用方案,提升算法研发和样本标注效率,针对badcase例性采样标注,辅助运营
决策和算法优化,提升模型复用率以降低新需求开发成本