内容:
1,基于 GPT 2模型,ChatGLM, LLAMA 模型使用公司的科普文章,医药数据,训练 GPT 生成模型,用于医疗 GPT 问答。
2,完成 Reward_model 模型训练,进而完成 RLHF 训练。
3,训练多模型,判断 GPT 生成结果,减少生成的幻觉情况。
4,基于 GPT 2模型,使用公司的医疗聊天数据,训练问诊 GPT 模型,用于多轮医疗问诊对话训练。
5,使用 sentencepiece 训练语料库词库
6,调研 ChatGLM, LangChain 等大模型方案,测试医疗类数据效果。
7,建立用户画像体系;包含用户的年龄,性别,位置,家庭成员,我的医生等静态标签,还包含用户的动态行为,包括用户的搜
索,浏览,问诊,购买,购物车等相关信息。
8,利用 OCR ,识别病人处方单的信息,通过抽取,结构化病例信息,大大提高门店的录入效率。
9,依据医生的处方单,生成药品的向量,根据疾病与药品的关系,得到疾病的向量;根据医生与疾病的关系,得到医生的向量,
依据药品,疾病,医生的向量,计算药品与药品的相关度,药品与疾病的相关度,疾病与医生的相关度,存入了 neo4j,形成知识
图谱。
10,基于lora微调的文生图生成大模型训练
业绩:
1,使用 GPT2, LLAMA 从0到1 训练医疗模型,依赖公司的问答,文章,聊天数据训练模型,并部署在线服务;使用 lora 微调
ChatGLM2 生成医疗模型
2, 分别训练单轮,多轮问答模型;根据语料库训练词库。
3,基于人工排序训练 Reward Model
4,使用 RLHF 训练模型,优化模型生成效果
5,使用其他模型,评判生成效果,有效减少模型幻觉
6,调研其他大模型技术路线,LangChain , ChatGLM 等相关技术路径。
7,将药品,疾病,医生向量化,构建药品与药品,药品与疾病,疾病与医生关系的知识图谱;
8,建立用户画像体系,处方识别系统上线