(负责数字化转型、结合大数据,机器学习和大语言模型、分布式系统实现数字化转型) 数字化转型相关的系统架构设计、数据研发、微服务系统研发、架构优化及需求管理和新技术引入、不断提升研发效能;基于企业数字化产品,大数据及人工智能模型,设计和实现高效、可扩展、智能化的企业数字化系统架构;海量数据的采集、存储、处理和管理,设计和优化数据平台和ETL流程,确保数据的完整性、有效性、及时性、准确性和一致性;微服务系统研发经验,并实现CI/CD的持续集成和DevOps,实现 AI应用的自动化测试、部署和更新;架构优化及需求管理和新技术引入,确保高效的项目需求研发效能,不断提升研发效能。
项目:
数字化转型系统建设
数字化信息系统建设
数字化的大型分布式系统
AI模型工程化平台
大模型数据工程化
大模型系统和应用
机器学习和数据挖掘
客户数据平台建设
数据智能中台和业务应用
数据仓库和数据建模
实时流式数据计算平台
机器学习和算法模型
数据治理和数据管理
智能数据洞察
1 企业数字转型平台建设
一站式的数字化平台建设,基于IaaS之上建设PaaS和SaaS平台,涵盖aPaaS,tPaaS
和SaaS等。涵盖MES、ERP、CRM、智能决策、大数据、OA等核心系统,并深度集成
AI、大数据等前沿技术;包含大模型系统和语言大模型,数据中台、技术中台,AI 工程化
平台等。
2 数字化的信息系统建设
设计各类综合业务系统,包括前置系统,报文处理系统,交易系统,前置系统,交易系统,
报文处理系统,业务中间件系统,安全系统,负载均衡系统,缓存系统,数据流控系统,
数据库和连接池系统,高性能,高并发,高可用,大数据量,高可扩展性的电子商务系统,
O2O系统等;基于SpringMVC, SpringBoot / SpringCloud, Restful, Redis, Zookeeper,
Kafka, MySQL / Oracle, Hadoop, Hive, Spark, Docker, Elasticsearch, Connection Pool等。
支持25亿的数据类别的量以及100亿级别的数据交易量数据流转和查询等,并支持数百万
到上千万的日活量;可扩展支持更多数据量的处理等。制定信息化发展战略、科技赋能业
务、科技创新、信息发展策略和系统架构规划、开发、完善和维护;数字化转型、风险管
理与安全保障包括网络安全、信息系统安全及灾备策略,信息安全保障、行业发展、技术
演进路线和主流技术发展趋势等。
3 数字化的大型分布式系统
大型分布式系统对物流、商流,资金流,信息流的业务数据进行处理,系统设计,技术方
案的设计与实现;对账系统,权限管理,订单系统,支付系统,内容供应商管理,报表系
统等;交易执行效率提升、安全机制;系统解耦,读写分离,分库分表,分布式事务的处
理和高可用的处理;系统监控,日志追溯;基于基于SpringBoot / SpringCloud, MyBatis,
Sharding Middleware, MySQL, Zookeeper、Kafka, Redis, Flink等进行Java的设计模式、
授权机制、数据安全机制等;系统优化,包括分库分表,ES弹性搜索,数据库的读写优化,
业务层调用数据接口和业务层补偿和优化等等; 支持30亿的数据类别的量以及200亿级
别的数据交易量数据流转和查询等,同时可扩展支持更多数据量的处理。
4 AI模型工程化平台
需求分析和架构设计,系统基于统一的模型管理架构对机器学习和深度学习的算法模型的
AI工程化管理,包括Model Builder,Model Manager, Model Monitoring, Deployer, Models
on Demand 等组成,基于 Java, SpringBoot / SpringCloud, Python, Golang, MySQL,
Connection Pool, Ceph, Model Artifact, Harbor, Model DB, Seldon, Promethues,
Kubernetes, Docker / Yarn etc. 整体架构包括云原生基础设施的IaaS层的云原生基础设施
层、AI系统层、AI服务层和应用层及终端、监控、告警、日志等。其中AI系统包括包括训
练框架及加速优化 PyTorch、TensorFlow等、推理引擎及加速优化 Triton、OpenVinO、
TensorRT等;AI服务层包括AI资产中心的数据集、镜像仓库、基础模型仓库、资源组和
实验管理等,支持数据标注、开发训练、在线推理、离线批量推理和流水线,当前支持推
荐算法模型、预测算法模型、营销算法模型、语音算法模型、视觉算法模型等;应用访问
层支持Web页面、OpenAPI、PythonSDK和交互式命令行等。
5 大模型数据工程化
数据集管理、数据洞察与处理,数据标注,数据回流,知识库;支持数据集的创建、导入、
版本管理、导出、查看、数据的清洗包括选择数据集、创建任务、异常清洗包括移除不可
见字符、规范化空格、去除乱码、繁简体转换、去除网页标识符、去除表情符等、去重,
去隐私和过滤操作,其中过滤操作基于文档词数据、字重复率、词重复率、特殊字符率、
色情暴力词率、语言概率、困惑度等。数据洞察与处理包括SFT数据的数据洞察、数据增
强、数据清洗;Post-pretrain数据包括模型文本数据的分析和数据清理;基于Prompt工
程,提供清晰和具体的指令,引导模型输出生成高相关、高准确且高质量的文本对答内容;
支持Prompt模板、Prompt优化、Prompt评估;推理服务支持对话Chat、续写Completions、
向量Embeddings、批量预测等API能力等。
6 大模型系统和应用
基于平台、前后端系统结合ChatGPT、Stable Diffusion等AICG和LLM构建大模型后端
系统,实现了AI写真图像开放创作、AI绘本开放创作、数字精灵(高阶情感交互能力、L
3级别高阶多模态交互能力、人设定义扩展,人设基础语言AI生成,人设模型SFT训练及
测试等)、AI音乐律动、壁纸、屏保、Prompt工程等;其中AI写真图像开放创作、AI绘本
开放创作综合考虑图片相似度、图片质量、图片生成速度、用户上传图片数量、图像开放
性提升运营效能,在SD1.5/controlnet/ rope和SDXL/rope基础尚提升相似度。总体系统架
构基于Java、SpringCloud/SpringBoot、Kafka、python/Golang、Hive/HBase、MySQL、
Redis、大模型平台等。大型语言模型(LLM)应用,基于检索增强生成(RAG)和智能体
(Agent)的应用于知识库和文档搜索内容实现知识问答等。大预言模型采用ChatGLM3,
Prompt Tuning微调,提供公司内部的知识库搜索查询应用和智能客服问答等。
7 客户数据平台
平台包括数据源、明细层、汇聚层、统一档案和应用层。明细层包括标准化数据格式,数
据清洗,去重,转换,过滤,缺失值替代等;汇聚层包括多主体ID Mapping (用户数据、订单数据、内容数据、行为数据等)、标签体系和标签管理包括管理生命周期标签、人工标
签、规则标签、逻辑标签、组合标签、SQL标签、模型标签、实时标签、AI预测标签等;
应用层包括全域洞察、精准营销和精细化运营及人群应用和广告推送和监测等。业务应用
包括建立标签体系、用户分群、用户洞察、数据融合等。标签体系包括标签预览、标签人
数分布、标签历史详情、标签规则、标签运行记录等;用户分群包括分群包名、ID类型、
分群数量、分组、状态、分群应用、所属主题等;用户洞察包括个体画像、群体画像、用
户群组显著特征、用户生命周期分析包括全部数据、认知、兴趣、购买、复购、用户趋势、
用户细分、流转分析包括复购、购买、兴趣、认知、机会人群等。数据融合包括可视化建
模、元数据管理、ID图谱构建、数据集、数据连接等。可视化建模支持基于离线任务和实
时任务的建模,ID图谱构建支持离线ID图谱构建和实时One-ID生成策略,数据集区分名
称,来源,存储类型,所有者,操作等。基于大数据平台Hive、StarRocks,MySQL,Hive,
Flink,SpringBoot, MyBatis, Kafka,Redis以及前端页面Vue.js等设计与实现。
8 数据智能中台和业务应用
规划设计和实现数据智能中台、数据业务和应用包括数据系统整体架构,数据接入架构,
数据平台架构、人工智能平台、数据业务应用等。数据系统整体架构包括数据接入与采
集、数据业务应用平台、查询引擎、数据洞察、数据探索、数据订阅和发布、数据统一
服务平台、数据仓库体系、数据分析、数据挖掘、实时计算平台、数据标准、数据质量、
数据治理与管理、数据存储和数据湖建设、数据模型,标签体系,指标体系,特征体系;
数据报表、数据可视化、数据应用、客户画像、营销系统和推荐系统、数据集市、监管报
送、征信报送等;元数据管理、主数据管理、数据资产管理、数据运维管理、数据生命
周期管理、数据安全和权限管理等。人工智能平台包括模型训练、模型优化、模型管理、
模型开发、数据集管理、特征工程、平台架构和参数服务器等。支撑的业务与应用系统
包括风控系统、决策系统、客户数据平台、精准营销系统、营销增长分析、智能数据洞察、
推荐系统、交易核心系统、信用贷款系统、资金资产平台、经营分析和 BI报表、数据
集市、信息视图、知识图谱等。基于Hadoop系列框架、Java、Python、Golang、云原
生、SpringCloud、Flink、Spark、Redis、DolphinScheduler、FineBI/GuanDataBI、
ClickHouse/Apache Doris/StarRocks、Iceberg / Paimon、ElasticSearch、Impala、Zeppelin、
Jupyter Notebook、Kubeflow、AutoKeras、H2O、Kubeflow, Tensorflow、Pandas, Numpy、
Keras,Scikit-learn、Tensorboard, Seaborn,Matplotlib及常用算法模型如XGBoost、逻
辑回归LR、CNN、RNN、决策树、随机森林、聚类K-means、线性判别分析LDA、主成分
分析PCA、循环神经网络、卷积神经网络、图搜索和图存储、孤立森林、逻辑与推理等。
实现存算分离、离线实时一体化、分析服务一体化、大数据&AI一体化建设等。
9 数据仓库和数据建模
数据仓库包括离线数仓和实时数仓,不同的数据分析和处理。数据仓库任务和数据体系
在数据仓库全景视图中展示;计算引擎包括离线计算引擎和实时流式计算引擎;实时计
算平台用于处理实时计算任务需求;存储系统支撑数据仓库和实时计算平台的存储并向
上支撑分析引擎、数据挖掘和数据访问层;数据治理用于数据平台架构及数据接入架构
和采集的数据治理。离线数仓包括主题建设、数据模型和体系建设包括指标体系、标签
体系、特征体系、主题建设、数据建模、任务管理、关联关系、ETL调度等。设计数据
仓库的分层架构并实施落地,离线数仓基于 Hadoop/Hive/HBase/Spark/Kafka, Kettle,
Azkaban/Airflow/ DolphineScheduler等,兼顾关系模型和维度建模,构建ODS、DWD、
DWS、DWT和ADS,并提供数据服务层,建设OLAP和OLTP等,提供经营分析和BI报
表、数据集市及各个数据应用等所需数据。实时数仓包括流任务管理、流数据处理、计
算、数据管理等。基于Kafka、Flink、Java、MySQL、Hadoop、ClickHouse / StarRocks等。
10 实时流式数据计算平台
设计和实现实时流式计算平台, 基于大数据生态和Flink体系实现流式计算服务,负责数
据实时采集、分析和加工、数据治理、数据缓存和异步IO处理、数据质量管理和过滤、大
幅提升计算效率,整个服务平台包括实时数据采集、实时数据分析和加工、实时数据缓存
和异步IO处理、流式计算资源管理服务、流式计算流资源管理、流式计算算子和算子库管
理、流式计算模板管理、流式计算元数据服务、流式计算质量管理、流式计算状态管理、
流式计算流解析和算子解析、流式计算包管理、流式计算接口控制、流和算子解析服务、
血缘管理服务等。基于Hadoop, Kafka, Redis, Flink, Kubernetes / Yarn, Zookeeper,Atlas,
Springboot, MyBatis, MySQL, Oceanbase / StarRocks / Paimon等。
11 机器学习和算法模型
基于Python脚本处理时嵌入Pandas, Numpy、Keras,Scikit-learn等结合决策树、随机森
林、聚类K-means、线性判别分析LDA、主成分分析PCA和神经网络,TensorFlow、PyTorch
等框架构建各类数据分析模型,实现分析效果等,并基于AB实验等方式评估效果,推动业
务部分数据化运营。
12 数据治理和数据管理
数据治理架构的设计与实现包括数据战略和策略,数据架构管理,数据标准体系、数据质
量体系,数据开发,数据建模、主数据管理、数据安全管理、数据资产管理,元数据管理
服务,数据仓库和商务智能管理,文档和内容管理,数据操作管理、数据设计,数据授权,
数据存储、数据质量管理、数据安全管理、流式计算数据解析,统一数据体系建设、血缘
关系服务设计与管理,血缘关系服务改进,数据存储,架构整体技术路线和演进等。基于
SpringBoot / SpringCloud, Kafka, Hadoop, Sentry/Ranger, Kafka, Redis, Spark Streaming
/ Flink, ClickHouse, Apache Doris, Kubernetes / Yarn, Zookeeper,Ceph/MySQL, Elastic
Search, Zepplin, Apache griffin, Apache Atlas / Apache Calcite等。