软硬件系统架构与解决方案专家-北京/杭州
2.5-5万元/月
更新 2025-12-29 14:37:46
浏览 988
职位详情
架构师
5-10年
岗位职责:
1.承担算力接入前的测试工作,涵盖整机压力测试、部件性能评估,以及多机训练/推理场景下单集群内多品牌设备混合部署的验证。
2.主导GPU软硬件协同中的复杂故障排查与性能问题定位,并推动问题闭环解决。
3.开展GPU压测工具、监控系统及故障诊断工具的研发与持续优化。
4.对主流AI模型和应用在新型异构计算平台上的运行性能进行评测与深度分析。
5.研判大规模LLM在训练与推理过程中所面临的异构硬件瓶颈,提出面向下一代的AI异构系统架构优化建议,助力大模型高效扩展。
任职要求:
1.具备GPU异构组件引入相关经验,或拥有主流AI芯片厂商在GPU应用开发与性能调优方面的实践背景,能够独立完成方案设计、技术对接及现场问题攻关。
2.熟悉GPU/AI专用芯片的硬件实现原理与芯片架构,了解配套服务器系统的设计逻辑,有NVIDIAGPU、AMDGPU等至少一种主流GPU架构经验者优先。
3.精通Python、C++语言及Linux开发环境,熟练运用CUDA进行编程开发;具备Cutlass、Triton等框架下的性能调优经验者优先;掌握常用性能分析工具的使用与数据解读方法。
4.熟练使用主流AI框架(如PyTorch、TensorFlow),熟悉大模型训练框架(如Megatron、DeepSpeed)和推理框架(如SGLang、vLLM)。
5.深入理解常见大模型的网络结构与算法机制,掌握训练与推理环节的核心工程优化手段。
6.具备良好的学习适应力和抗压能力,能快速响应行业变化;具备出色的跨团队协作意识与沟通表达能力。
1.承担算力接入前的测试工作,涵盖整机压力测试、部件性能评估,以及多机训练/推理场景下单集群内多品牌设备混合部署的验证。
2.主导GPU软硬件协同中的复杂故障排查与性能问题定位,并推动问题闭环解决。
3.开展GPU压测工具、监控系统及故障诊断工具的研发与持续优化。
4.对主流AI模型和应用在新型异构计算平台上的运行性能进行评测与深度分析。
5.研判大规模LLM在训练与推理过程中所面临的异构硬件瓶颈,提出面向下一代的AI异构系统架构优化建议,助力大模型高效扩展。
任职要求:
1.具备GPU异构组件引入相关经验,或拥有主流AI芯片厂商在GPU应用开发与性能调优方面的实践背景,能够独立完成方案设计、技术对接及现场问题攻关。
2.熟悉GPU/AI专用芯片的硬件实现原理与芯片架构,了解配套服务器系统的设计逻辑,有NVIDIAGPU、AMDGPU等至少一种主流GPU架构经验者优先。
3.精通Python、C++语言及Linux开发环境,熟练运用CUDA进行编程开发;具备Cutlass、Triton等框架下的性能调优经验者优先;掌握常用性能分析工具的使用与数据解读方法。
4.熟练使用主流AI框架(如PyTorch、TensorFlow),熟悉大模型训练框架(如Megatron、DeepSpeed)和推理框架(如SGLang、vLLM)。
5.深入理解常见大模型的网络结构与算法机制,掌握训练与推理环节的核心工程优化手段。
6.具备良好的学习适应力和抗压能力,能快速响应行业变化;具备出色的跨团队协作意识与沟通表达能力。
相似职位
很抱歉,暂无相似职位!