算力调度系统架构师
1.5-2.5万元/月
更新 2026-01-04 12:58:07
浏览 87
职位详情
架构师
3-5年
Python · Shell · 负载均衡技术 · 容器技术 · Go · 微服务架构 · SpringBoot · Spring
岗位职责:
1、负责集群自动化部署方案的设计与实施,构建覆盖监控、弹性伸缩及容灾能力的一体化运维体系。
2、推进GPU/NPU资源池化建设,主导核心调度能力建设与落地。
3、牵头异构计算资源调度系统的研发工作,聚焦基于K8s调度框架的功能开发与持续迭代。
4、构建面向GPU/NPU算力的资源管理平台,健全监控告警、日志采集与成本计量机制,实现集群从接入到退役的全周期可视化管控。
5、研发或集成高效工具链,支持算力资源的动态分配与负载均衡,减少任务等待时间,提升整体集群吞吐能力。
6、结合GPU/NPU硬件特性,对深度学习模型训练与推理流程进行端到端性能剖析与优化,涵盖CUDA内核调优、算子加速及内存带宽利用等关键环节。
7、优化RDMA网络资源配置与流量控制策略,应对多任务并发场景下的PFC风暴问题。
8、支撑深度学习训练任务运行,持续改进模型资源分配机制以提升利用率。
9、快速排查并处理集群中硬件(如GPU/NPU卡异常)、网络、存储及软件栈层面的各类故障,包括显存泄漏、通信阻塞等典型问题。
10、满足上述能力中5项及以上者优先考虑。
任职要求:
1、具备5年以上相关经验,有大规模GPU/NPU算力集群的运维或开发背景,具备AI训练或推理场景的实际项目经历。
2、熟练掌握K8s、Docker等容器技术栈。
3、深刻理解GPU/NPU架构原理(如CUDA、TensorCore、RDMA等),熟悉PyTorch/TensorFlow等框架的分布式训练机制;
4、具有系统性能调优实践经验,熟练使用各类Profiling分析工具;
5、熟悉Prometheus、Grafana、ELK等主流监控组件,能够编写Python/Shell类自动化脚本。
6、了解主流GPU/NPU厂商硬件规格,具备AI算力成本优化经验(如混合精度训练、显存压缩)者优先。
7、具备出色的逻辑思维与故障排查能力,可在高压环境下高效响应紧急事件,具备良好的团队协作意识和跨部门沟通能力,有撰写技术文档和技术分享的习惯。
8、加分项:掌握InfiniBand/RoCE等高性能网络协议
1、负责集群自动化部署方案的设计与实施,构建覆盖监控、弹性伸缩及容灾能力的一体化运维体系。
2、推进GPU/NPU资源池化建设,主导核心调度能力建设与落地。
3、牵头异构计算资源调度系统的研发工作,聚焦基于K8s调度框架的功能开发与持续迭代。
4、构建面向GPU/NPU算力的资源管理平台,健全监控告警、日志采集与成本计量机制,实现集群从接入到退役的全周期可视化管控。
5、研发或集成高效工具链,支持算力资源的动态分配与负载均衡,减少任务等待时间,提升整体集群吞吐能力。
6、结合GPU/NPU硬件特性,对深度学习模型训练与推理流程进行端到端性能剖析与优化,涵盖CUDA内核调优、算子加速及内存带宽利用等关键环节。
7、优化RDMA网络资源配置与流量控制策略,应对多任务并发场景下的PFC风暴问题。
8、支撑深度学习训练任务运行,持续改进模型资源分配机制以提升利用率。
9、快速排查并处理集群中硬件(如GPU/NPU卡异常)、网络、存储及软件栈层面的各类故障,包括显存泄漏、通信阻塞等典型问题。
10、满足上述能力中5项及以上者优先考虑。
任职要求:
1、具备5年以上相关经验,有大规模GPU/NPU算力集群的运维或开发背景,具备AI训练或推理场景的实际项目经历。
2、熟练掌握K8s、Docker等容器技术栈。
3、深刻理解GPU/NPU架构原理(如CUDA、TensorCore、RDMA等),熟悉PyTorch/TensorFlow等框架的分布式训练机制;
4、具有系统性能调优实践经验,熟练使用各类Profiling分析工具;
5、熟悉Prometheus、Grafana、ELK等主流监控组件,能够编写Python/Shell类自动化脚本。
6、了解主流GPU/NPU厂商硬件规格,具备AI算力成本优化经验(如混合精度训练、显存压缩)者优先。
7、具备出色的逻辑思维与故障排查能力,可在高压环境下高效响应紧急事件,具备良好的团队协作意识和跨部门沟通能力,有撰写技术文档和技术分享的习惯。
8、加分项:掌握InfiniBand/RoCE等高性能网络协议
相似职位
很抱歉,暂无相似职位!