返回 职位详情 登录/注册
通义实验室-多模态生成算法-通义万相
4-7万元/月
定位 杭州西湖区阿里巴巴云谷园区1
更新 2025-12-29 14:39:41 浏览 736
职位详情
大模型算法 3-5年
【部门介绍】
伴随大模型技术的快速演进,多模态数据(如图像、视频、音频、3D内容等)的理解与生成能力持续提升。当前,构建具备多模态输入输出能力的世界模型已成为行业前沿焦点,也被视为通向通用人工智能(AGI)的关键路径之一。
通义万相将持续深耕世界模型、原生多模态预训练、理解与生成融合架构、统一Tokenizer设计、人类反馈与强化学习等核心技术方向,力争在多模态世界模型领域保持领先研究水平,致力于打造具有全球影响力的技术成果。

【工作内容】
1、开展原生多模态模型的研究与实现,整合文本、图像、语音等多模态输入能力,支持复杂指令下的内容生成,覆盖文生图、图生图、文档生成、可控图像编辑等核心场景。
2、优化图像生成模型性能,深入研究扩散模型、自回归模型的结构设计与训练策略,推进关键技术突破。
3、探索人类反馈与强化学习方法,聚焦精细化RL算法构建,利用用户反馈数据提升图像生成质量与体验。

【职位要求】
1.拥有计算机科学、人工智能、机器学习等相关专业硕士或博士学位,具备扎实的计算机视觉理论基础。
2.熟悉机器学习与深度学习基本原理,掌握主流视觉生成算法,熟练使用Pytorch、Tensorflow等至少一种深度学习框架。
3.具备突出的科研能力,有大规模视觉生成算法相关研究经验,发表过高引用论文或参与知名开源项目者优先,成果见于CVPR、ICCV、NeurIPS、ICLR、TPAMI等顶级会议或期刊者更佳。
4.对生成式技术充满热情,具备视觉生成大模型研发背景,有对话系统、多模态内容生成等实际项目落地经验者优先。
5.具备敏锐的技术洞察力和出色的业务分析能力,能应对复杂的算法需求,善于与工程、产品等多职能团队协作,推动技术成果高效转化并产生实际价值。
6.关注技术生态建设,认同开源理念,对基础模型的前沿问题保持高度关注,有强烈追求,期望参与并贡献具有广泛影响力的技术工作。
公司信息
阿里云计算有限公司
明细
浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室
城口人才网温馨提示
求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
相似职位
很抱歉,暂无相似职位!