邦禾动态 NEWS

CVPR 2025 Qwen让AI「看见」三维世界SeeGround实现零样

发布时间:2025-03-27 20:43   |   阅读次数:

  科技大学(广州)、新加坡A*STAR研究院和新加坡国立大学的研究团队提出了SeeGround,一种全新的零样本3D视觉定位框架。3。SeeGround包罗透视自顺应模块(PAM)和融合对齐模块(FAM),前者确保VLM精确理解物体的空间关系,后者提拔定位精度。4。尝试成果显示,SeeGround正在多个基准测试中显著超越了现有零样本方式,表示出更强的稳健性和泛化能力。,这类方式依赖大规模 3D 标注数据进行锻炼,但因为获取 3D 标注数据的通过狂言语模子(LLM)进行方针推理,试图绕开对 3D 锻炼数据的需求。然而,这类方式凡是忽略了,例如物体的颜色、外形、朝向等,使得模子正在面临多个类似物体时难以进行细粒度区分。这些方式就像让为此,来自科技大学(广州)、新加坡 A*STAR 研究院和新加坡国立大学的研究团队提出了。其焦点立异正在于将 3D 场景转换为 2D-VLM 可处置的形式,实现对肆意物体和场景的泛化,为现实使用供给了更高效的处理方案。构成:透视自顺应模块(PAM)和融合对齐模块(FAM)。PAM 通过动态视角选择,确保 VLM 可以或许精确理解物体的正在 3D 物体定位使命中,间接利用一个固定视角将 3D 场景衬着为 2D 图像(如俯视图)虽然能供给物体的颜色、纹理等消息,但却存正在一个环节问题 ——(如 “桌子左边的椅子”),VLM 很可能误判。例如,正在俯视视角下,桌子和椅子的相对可能会因透视投影而发生变化,本来正在桌子左边的椅子可能会被误认为正在左边,而 VLM 只能依赖 2D 图像中的视觉特征,无法揣度物体正在三维空间中的现实。间接利用固定视角衬着的 2D 图像做为输入,会导致模子正在涉及空间关系的使命上表示欠安。,先解析用户输入的文本,识别出描述中涉及的锚定物体(anchor object),即用于参考空间关系的对象。随后,系统按照锚定物体的计较最佳察看角度,调整虚拟摄像机,使其从更合适人类曲觉的角度捕获场景,确保 VLM 能够精确理解物体的空间关系。最终,SeeGround 生成一张合适查询语义的 2D 图像,该图像可以或许更清晰地呈现方针物体取其参考物体的相对,使 VLM 具备更强的 3D 关系推理能力。这一策略不只提高了 VLM 正在 3D 物体定位使命中的精确率,同时也避免了因固定视角导致的标的目的性误判和遮挡问题,使得零样本 3DVG 使命正在复杂下仍然具备不变的泛化能力。透视自顺应模块(PAM)可以或许为 VLM 供给更合适使命需求的察看视角,但即便如斯,VLM 仍然面对一个环节挑和:它无法间接推理 3D 物体的空间消息,然而,当 VLM 看到 2D 衬着图像时,它并不晓得图中的椅子对应的是哪个 3D 坐标。这意味着,若是场景中有手艺,正在 2D 衬着图像中标注出环节物体的,使 VLM 可以或许识别出 2D 画面中的具体方针物体,并将其取 3D 坐标数据联系关系。来获取场景中的所有物体的 3D 坐标。然后,利用投影手艺将 3D 物体的空间转换为 2D 图像中的对应,并正在衬着图像上添加,以便 VLM 正在推理时可以或许精确识别出方针物体。同时,正在文本描述输入部门,SeeGround 进一步加强了 3D 物体的空间描述,使 VLM 正在推理时可以或许连系 2D 视觉特征和 3D 坐标消息,从而精确婚配方针物体。此外,正在对比尝试中,即便去除部门文本消息,SeeGround 仍然可以或许操纵视觉线索进行精确定位,进一步验证了该方式正在不完全消息前提下的稳健性。的环境下,测验考试定位方针物体:正在 “请找到打印机上方的柜子” 这一查询使命中,文本输入被锐意去除了 “打印机” 和 “柜台” 等环节消息,的 LLM 因为无法获取需要的上下文消息,错误地婚配到了错误的柜子。而 SeeGround 通过 VLM 连系SeeGround 通过无需 3D 锻炼数据的立异设想,成功处理了现有零样本方式正在视觉细节和空间推理上的不脚,显著提拔了 3DVG 使命的泛化能力。这一冲破为加强现实、机械人和智能家居等范畴供给了更高效、矫捷的 3D 物体定位方案。SeeGround 是科技大学(广州)、新加坡 A*STAR 研究院和新加坡国立大学团队的合做项目。本文的第一做者为港科博识士生李蓉,通信做者为港科广 AI Thrust 帮理传授梁俊卫。其余做者包罗新加坡国立大学博士生孔令东,以及 A*STAR 研究院研究员李仕杰和 Xulei Yang。

上一篇:AI艺术照生成器:轻松打制明星同款动漫写实

下一篇:AI 手艺焦点素质是系统进修取深度进修的力量