VLM/多模态算法工程师
2-4万元/月
更新 2025-12-25 06:32:22
浏览 669
职位详情
算法工程师
3-5年
多模态 · PyTorch · 深度学习 · 大模型算法 · 多模态算法
岗位职责
*基于现有VLM模型(如Qwen-VL/InternVL/LLaVA/BLIP-2等)进行端侧模型压缩、量化与知识蒸馏,实现完整上线流程。
*构建“语言指令→视觉目标/区域/属性”的映射解析机制,并设计安全控制策略(如黑名单过滤、敏感区域屏蔽)。
*实现VLM输出结果与下游任务模块(抓取/放置/质检)的精准对接(包括目标ID、位姿、置信度及时序一致性)。
*协同数据团队构建多模态数据集(涵盖图像、文本描述及操作序列),推动持续迭代学习体系落地。
*与ROS2及操控模块协作,集成多模态服务接口(gRPC/ROS2service/topic),确保低延迟响应与系统容错能力。
专业要求
*掌握多模态模型核心技术原理(如特征对齐、指令微调、LoRA/QLoRA、对比学习/CLIP方法)。
*熟悉边缘设备推理优化技术(至少掌握TensorRT/ONNXRuntime/TFLite/OpenVINO其中之一)。
*理解检测、分割、关键点等视觉任务与VLM的交互设计及其误差传递影响。
任职资格
*精通PyTorch框架,具备在自有数据集上完成开源模型权重再对齐并开展A/B测试(mAP/Recall/延迟)的能力。
*具备轻量化模型部署经验(至少掌握INT8/FP16量化、模型剪枝或蒸馏技术之一),可部署至嵌入式或边缘计算平台(GPU/NPU/BPU)。
*具备跨团队协作背景,能清晰传达需求、评估指标及项目上线节点。
其他事项
*能熟练阅读英文技术文档,具备快速验证和集成新开源模型的能力。
*基于现有VLM模型(如Qwen-VL/InternVL/LLaVA/BLIP-2等)进行端侧模型压缩、量化与知识蒸馏,实现完整上线流程。
*构建“语言指令→视觉目标/区域/属性”的映射解析机制,并设计安全控制策略(如黑名单过滤、敏感区域屏蔽)。
*实现VLM输出结果与下游任务模块(抓取/放置/质检)的精准对接(包括目标ID、位姿、置信度及时序一致性)。
*协同数据团队构建多模态数据集(涵盖图像、文本描述及操作序列),推动持续迭代学习体系落地。
*与ROS2及操控模块协作,集成多模态服务接口(gRPC/ROS2service/topic),确保低延迟响应与系统容错能力。
专业要求
*掌握多模态模型核心技术原理(如特征对齐、指令微调、LoRA/QLoRA、对比学习/CLIP方法)。
*熟悉边缘设备推理优化技术(至少掌握TensorRT/ONNXRuntime/TFLite/OpenVINO其中之一)。
*理解检测、分割、关键点等视觉任务与VLM的交互设计及其误差传递影响。
任职资格
*精通PyTorch框架,具备在自有数据集上完成开源模型权重再对齐并开展A/B测试(mAP/Recall/延迟)的能力。
*具备轻量化模型部署经验(至少掌握INT8/FP16量化、模型剪枝或蒸馏技术之一),可部署至嵌入式或边缘计算平台(GPU/NPU/BPU)。
*具备跨团队协作背景,能清晰传达需求、评估指标及项目上线节点。
其他事项
*能熟练阅读英文技术文档,具备快速验证和集成新开源模型的能力。
相似职位
很抱歉,暂无相似职位!