通义实验室-多模态生成算法-通义万相招聘_阿里云计算有限公司-城口人才网

通义实验室-多模态生成算法-通义万相

4-7万元/月

杭州西湖区阿里巴巴云谷园区1

更新 2025-12-29 14:39:41 浏览 736

职位详情

大模型算法 3-5年

【部门介绍】
伴随大模型技术的快速演进，多模态数据（如图像、视频、音频、3D内容等）的理解与生成能力持续提升。当前，构建具备多模态输入输出能力的世界模型已成为行业前沿焦点，也被视为通向通用人工智能（AGI）的关键路径之一。
通义万相将持续深耕世界模型、原生多模态预训练、理解与生成融合架构、统一Tokenizer设计、人类反馈与强化学习等核心技术方向，力争在多模态世界模型领域保持领先研究水平，致力于打造具有全球影响力的技术成果。

【工作内容】
1、开展原生多模态模型的研究与实现，整合文本、图像、语音等多模态输入能力，支持复杂指令下的内容生成，覆盖文生图、图生图、文档生成、可控图像编辑等核心场景。
2、优化图像生成模型性能，深入研究扩散模型、自回归模型的结构设计与训练策略，推进关键技术突破。
3、探索人类反馈与强化学习方法，聚焦精细化RL算法构建，利用用户反馈数据提升图像生成质量与体验。

【职位要求】
1.拥有计算机科学、人工智能、机器学习等相关专业硕士或博士学位，具备扎实的计算机视觉理论基础。
2.熟悉机器学习与深度学习基本原理，掌握主流视觉生成算法，熟练使用Pytorch、Tensorflow等至少一种深度学习框架。
3.具备突出的科研能力，有大规模视觉生成算法相关研究经验，发表过高引用论文或参与知名开源项目者优先，成果见于CVPR、ICCV、NeurIPS、ICLR、TPAMI等顶级会议或期刊者更佳。
4.对生成式技术充满热情，具备视觉生成大模型研发背景，有对话系统、多模态内容生成等实际项目落地经验者优先。
5.具备敏锐的技术洞察力和出色的业务分析能力，能应对复杂的算法需求，善于与工程、产品等多职能团队协作，推动技术成果高效转化并产生实际价值。
6.关注技术生态建设，认同开源理念，对基础模型的前沿问题保持高度关注，有强烈追求，期望参与并贡献具有广泛影响力的技术工作。

公司信息

阿里云计算有限公司

浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室

城口人才网温馨提示

求职过程请勿缴纳费用，谨防诈骗！若信息不实请举报。

相似职位

很抱歉,暂无相似职位！