岗位职责:
1. 大模型架构设计
? 设计千亿参数级大模型架构,解决NLP/CV多模态业务场景问题
? 开发基于Transformer、MOE等架构的分布式模型系统
2. 高效训练优化
? 主导多卡分布式训练,应用ZeRO-3/梯度检查点/混合精度训练技术
? 优化DeepSpeed/Megatron-LM等框架的集群资源利用率
? 实现训练吞吐量提升与显存占用优化
3. 模型调优与部署
? 运用RLHF(Reinforcement Learning from Human Feedback)进行对齐优化
? 设计Prompt
Engineering策略提升zero-shot能力
? 开发模型量化/蒸馏方案,推动千亿模型端侧部署
4. 多模态技术研发
? 构建CLIP/BLIP/ViLT等跨模态对齐系统
? 开发多模态统一表征框架,支持图文/视频/3D多模态理解
? 优化多模态模型的跨域迁移能力
5. 技术前瞻研究
? 跟踪ICML/NeurIPS等顶会技术动态,主导关键技术预研
? 构建大模型技术中台,形成专利产出
任职要求:
1. 基础要求
? 本科及以上学历,计算机/数学相关专业
? 具有大模型研发经验,完整参与过亿级参数模型项目
2. 技术能力
? 精通PyTorch生态,掌握HuggingFace/ColossalAI等工具链
? 深入理解Transformer/BERT/GPT等架构及Attention机制
? 具备8卡以上分布式训练调优经验,熟悉NCCL通信优化
3. 专业能力
? 精通多模态表征学习,有跨模态检索/生成项目经验
? 掌握LoRA/Adapter等高效微调方法,具备RLHF实战经验
? 熟悉LLM评估体系(HELM/LongBench等)
4. 工程能力
? 熟练使用Python/C ,能进行CUDA层优化
