1) 分别训练行人跌倒检测模型(YoloFastest 系列)、人形侦测+行人追踪模型(ReID+DeepSort)、人脸识别(EasyFace)轻量化模型(三个项目),通过 TNN 和 NCNN 两种推理框架部署到 GPU 服务器和终端树莓派 4B,通过摄像头模组分析模型性能(准确率、帧率等)。其中,在每个项目过程中,分别理解各类计算机视觉模型架构、演进路线,通过 Pytorch 编程,以模型重训练方式调整模型参数,并进行模型转
化、模型量化,通过 OpenCV 进行(交叉)编译,通过推理框架部署到服务器侧和端侧,进行模型推理和模型应用,并完成对图像、视频、实时摄像头三种输入的交叉验证,将工程上传到公司 git,将工程记在项目过程中,理解了较多经典的深度学习模型,多模型结构特点、模块算力、参数量等都进行了整理,并对深度学习训练全过程进行了深入理解。
2) 在标准数据集上训练 CRNN 语音模型,理解模型结构和机制,进行语音识别,并将项目工程和执行文档上传到公司 git;理解 RNN、LSTM、Transformer、Bert、GPT、ChatGPT 的技术改进路线和运行机制;理解自然语言处理基本任务、模型架构、训练过程、推理机制。
3) 编写 Pytorch 代码,通过 PTQ 和 QAT 两种方式将模型量化(PTQ+QAT)到 8-bit 位宽;通过 TNN、NCNN 推理框架将若干视觉模型量化(PTQ)到 8-bit 位宽;对比 Candance、VeriSilicon 量化工具的性能指标,研究模型量化的实现算法、性能评估、量化领域难点和发展方向等。
4) 通过命令行、cmake 两种编译方式,将工程分别封装成可执行文件、静态库和动态库。
5) 下载开源 GPT-2 预训练模型代码,进行文本生成应用;理解使用 BERT 进行情感分析的应用代码过程;熟悉模型并行训练机制 、大模型训练工具 Deepspeed、Megatron-LM、LoRA 等。
6) 在工作过程中,理解知识蒸馏、神经网络架构搜索 NAS、数据样本不平衡处理、GAN 模型、VAE 模型、强化学习、元学习、博弈论等。
7) 试用 NPU IP,评估、对比 Cadence 、VeriSilicon、清微、ARM 的 NPU 性能指标,其中,在 VeriSilicon
VIP9000 上对不同类型网络(yolov3_tiny、squeezenet1、MobileNetV2、deepspeech2、inceptionv3、resnet50、
yolov5s)下的性能指标(帧率、MAC 利用率等)进行了分析。
8) 在工作过程中,独立构思编写 AI 发明专利 4 篇(神经网络搜索 1 篇授权、混合量化 1 篇公开,样本平衡训练已提交专利局,知识蒸馏待提交专利局)(均第一发明人)。