大语言模型推演
2.7-5万元/月
更新 2025-12-29 14:39:45
浏览 809
职位详情
机器学习
1-3年
C/C++ · 推理 · 深度学习 · 算法工程化经验 · 其他 · 大模型 · 分布式 · 模型加速/性能优化 · Python
社招校招同步开放~
工作内容:
打造行业领先的大语言模型推理底层架构,围绕量化压缩、高效解码、算子加速、并行计算策略、运行时调度优化及分布式部署等方面,持续提升推理效率并降低资源开销。
职位要求:
1.具备扎实的系统开发能力,熟练掌握C++、Python编程语言。拥有良好的编码规范,理解常用软件设计模式,具备系统级工程实现与性能剖析能力。
2.掌握主流模型压缩与快速解码技术,能够准确评估性能与精度之间的平衡关系。
3.熟悉GPU架构及CUDA开发,有使用CUTLASS、Triton等工具进行高性能算子开发的经验,具备较强的性能调优实战能力。
4.理解常见并行方式(TP/PP/DP/EP/SP等)的原理及其应用场景,能针对不同模型结构进行合理的并行策略选择与性能分析。
5.拥有分布式系统设计与开发经验,可构建高吞吐、低延迟、易扩展且稳定可靠的在线推理服务架构。
6.深入理解大语言模型的工作负载特征与实际应用需求,具备多维度性能优化经验,能从系统和算法层面协同思考问题。关注前沿动态,熟悉主流开源项目及相关技术生态。
除技术能力外,我们期待你具备以下素质:
1.学习能力强,对新兴技术保持敏锐洞察,乐于挑战未知领域。
2.目标驱动,积极进取,善于攻坚复杂问题。
3.具备良好的协作意识与团队沟通能力。
工作内容:
打造行业领先的大语言模型推理底层架构,围绕量化压缩、高效解码、算子加速、并行计算策略、运行时调度优化及分布式部署等方面,持续提升推理效率并降低资源开销。
职位要求:
1.具备扎实的系统开发能力,熟练掌握C++、Python编程语言。拥有良好的编码规范,理解常用软件设计模式,具备系统级工程实现与性能剖析能力。
2.掌握主流模型压缩与快速解码技术,能够准确评估性能与精度之间的平衡关系。
3.熟悉GPU架构及CUDA开发,有使用CUTLASS、Triton等工具进行高性能算子开发的经验,具备较强的性能调优实战能力。
4.理解常见并行方式(TP/PP/DP/EP/SP等)的原理及其应用场景,能针对不同模型结构进行合理的并行策略选择与性能分析。
5.拥有分布式系统设计与开发经验,可构建高吞吐、低延迟、易扩展且稳定可靠的在线推理服务架构。
6.深入理解大语言模型的工作负载特征与实际应用需求,具备多维度性能优化经验,能从系统和算法层面协同思考问题。关注前沿动态,熟悉主流开源项目及相关技术生态。
除技术能力外,我们期待你具备以下素质:
1.学习能力强,对新兴技术保持敏锐洞察,乐于挑战未知领域。
2.目标驱动,积极进取,善于攻坚复杂问题。
3.具备良好的协作意识与团队沟通能力。
相似职位
很抱歉,暂无相似职位!