深度学习训练平台开发专家
4-7万元/月
更新 2025-12-29 14:36:44
浏览 195
职位详情
高性能计算工程师
经验不限
C/C++ · 机器学习 · 分布式训练 · 大模型算法 · 多模态算法 · 强化学习 · 并行计算 · 模型加速/性能优化 · Python
岗位职责:
●负责PAI平台深度学习框架的技术研发,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练流程等方向,支撑通义实验室、阿里集团等多个业务场景;参与基模型Pretrain、SFT等关键阶段的训练性能优化;
●专注于提升各阶段模型训练任务的峰值吞吐能力,系统化分析不同模型负载在各环节的时间开销,并提出针对性优化方案,包括但不限于算子层面改进、通信机制调优、分布式策略设计等手段;
●主导超大规模训练系统的稳定性建设,通过多种技术路径提高训练任务的实际有效吞吐,打造高效的故障识别与自动恢复机制,保障大规模训练过程的流畅性与可靠性;
●参与训练框架对多种硬件后端的适配与性能增强工作。
职位描述
●具备扎实的工程实现能力,良好的编码规范,熟练掌握Python/C++编程语言及常见设计模式,拥有复杂软件系统的设计、开发与调试经验;
●理解深度学习基本理论,熟悉Transformer结构,了解主流大语言模型和多模态模型的核心特性;
●精通PyTorch等常用深度学习框架,深入理解Megatron、DeepSpeed、JAX等训练框架的技术差异与实现细节;
●具有良好的沟通表达能力和团队协作精神,具备快速学习新知识的能力以及持续探索技术难题的韧性;
●掌握计算机体系结构相关基础知识,在异构计算优化(GPGPU/x86/ARM)领域有实践经验,熟悉高性能网络通信机制与分布式训练策略调优方法;
●负责PAI平台深度学习框架的技术研发,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练流程等方向,支撑通义实验室、阿里集团等多个业务场景;参与基模型Pretrain、SFT等关键阶段的训练性能优化;
●专注于提升各阶段模型训练任务的峰值吞吐能力,系统化分析不同模型负载在各环节的时间开销,并提出针对性优化方案,包括但不限于算子层面改进、通信机制调优、分布式策略设计等手段;
●主导超大规模训练系统的稳定性建设,通过多种技术路径提高训练任务的实际有效吞吐,打造高效的故障识别与自动恢复机制,保障大规模训练过程的流畅性与可靠性;
●参与训练框架对多种硬件后端的适配与性能增强工作。
职位描述
●具备扎实的工程实现能力,良好的编码规范,熟练掌握Python/C++编程语言及常见设计模式,拥有复杂软件系统的设计、开发与调试经验;
●理解深度学习基本理论,熟悉Transformer结构,了解主流大语言模型和多模态模型的核心特性;
●精通PyTorch等常用深度学习框架,深入理解Megatron、DeepSpeed、JAX等训练框架的技术差异与实现细节;
●具有良好的沟通表达能力和团队协作精神,具备快速学习新知识的能力以及持续探索技术难题的韧性;
●掌握计算机体系结构相关基础知识,在异构计算优化(GPGPU/x86/ARM)领域有实践经验,熟悉高性能网络通信机制与分布式训练策略调优方法;
相似职位
很抱歉,暂无相似职位!