引入几何约束后，VLM跨越了「空间推理」的认知鸿沟|几何约束|参考系|数学|空间推理_手机网易网网易网易号

引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

机器之心Pro

2026-01-12 17:17 ·河北 ·《机器之心》官方网易号

打开网易新闻查看精彩图片

现有的视觉大模型普遍存在「语义-几何鸿沟」（Semantic-to-Geometric Gap），不仅分不清东南西北，更难以处理精确的空间量化任务。例如问「你坐在沙发上时，餐桌在你的哪一侧？」，VLM 常常答错。

这种「语义‑几何鸿沟」源自于视觉大模型的语义空间无法承载高保真的几何细节，导致其在空间推理时是在「凭空瞎猜」，这使得模型读懂了画面的语义，却停留在「语言的世界」中，不具备现实世界赖以运行的几何直觉，导致空间判断漏洞百出。

打开网易新闻查看精彩图片

论文标题：Geometrically-Constrained Agent for Spatial Reasoning
论文链接：https://arxiv.org/pdf/2511.22659
作者团队：Zeren Chen, Xiaoya Lu, Zhijie Zheng, Pengrui Li, Lehan He, Yijin Zhou, Jing Shao, Bohan Zhuang, Lu Sheng
通讯单位：北京航空航天大学，上海人工智能实验室
项目主页：https://gca-spatial-reasoning.github.io
项目代码：https://github.com/gca-spatial-reasoning/gca

针对这一痛点，北京航空航天大学与上海人工智能实验室的研究团队创新提出了几何约束智能体（Geometrically-Constrained Agent, GCA），开创了「先形式化约束，后确定性计算」的空间推理新范式。GCA 不依赖海量数据微调，而是通过构建形式化任务约束，强制 VLM 从「模糊直觉」转向「精确求解」，通过视觉工具调用和编写计算代码进行参数化计算，为空间推理搭建了一座可验证、确定性的几何桥梁。

GCA 直接带领 Qwen、Gemini 等基座模型实现「能力跃迁」。在公认高难度的 MMSI-Bench 测试中，GCA 将模型性能提升近 50%，击败现有 Training-based 及 Tool-integrated 方法，并在多个主流空间推理测试中确立了空间推理领域的新 SOTA。

打开网易新闻查看精彩图片

核心挑战：跨越「语义 - 几何」的认知鸿沟

视觉语言模型（VLM）在图像描述与通用语义理解上表现卓越，然而，当任务转向需要高精度几何计算的空间推理时 —— 例如判断物体的精确朝向、测量距离或进行视角变换 —— 其表现却显著下滑。

研究团队指出，这种能力断层的根源在于「语义 - 几何鸿沟」。具体表现为：

视觉 & 几何信息的有损压缩：VLM 将丰富的像素信息压缩为抽象的语义特征，这一过程如同将一幅详细地图简化为几个地标名称，导致物体精确位置、朝向、尺度等高保真几何细节大量丢失。
几何想象的缺失：以「坐在沙发上」这一场景为例，VLM 仅能调用模糊的空间常识（知道人与沙发通常同向），却无法在脑海中精确构建出「从沙发视角看去」的三维场景。这种几何想象力的匮乏，使其在面对复杂空间推理时力不从心。

️ 核心方法：基于形式化约束的两阶段推理

打开网易新闻查看精彩图片

1. 任务形式化 —— 从「模糊指令」到「精确规则」

VLM 首先扮演「语义分析师」的角色，利用其强大的语义理解能力，将模糊的自然语言指令转化为明确的数学约束。这一步骤不涉及具体计算，而是确立规则：

打开网易新闻查看精彩图片

基于物体的参考系 (Object-based Frame)：利用物体自身的坐标系。例如指令「当你在洗手时...」隐含了观察者必须「面对洗手池」，因此参考系由洗手池的朝向决定。
基于相机的参考系 (Camera-based Frame)：即标准的视图坐标系。例如「从图 1 的视角来看...」，此时参考系直接绑定为相机的基于方向的参考系 (Direction-based Frame)：由两个物体的位置关系定义。例如「烤箱在水槽的北面」，此时「北」的方向由从水槽指向烤箱的向量严格定义。

打开网易新闻查看精彩图片

2. 几何计算 —— 在规则内进行「确定性求解」

打开网易新闻查看精彩图片

智能工具调度与绑定：VLM 像指挥官一样，调度 3D 重建等感知工具获取数据，并能智能地将「最左边的椅子」等模糊描述，精准绑定到具体的几何对象上，消除语义歧义。
感知与计算的无缝衔接：感知工具负责将视觉世界参数化为高保真 3D 表示，计算工具则负责执行代码、完成坐标转换，二者在统一框架下协同，实现从「看到」到「算准」的闭环。
检索增强的可靠计算：采用类似 RAG 的策略，VLM 从一个已验证的几何公式库中检索正确模型来生成代码，从根本上杜绝「幻觉」，确保每项计算都基于可靠的物理原理。

实验结果：全新的空间推理 SOTA

在 MMSI-Bench、MindCube-tiny、OmniSpatial 等多个主流空间推理基准上，GCA 证明了其有效性，构建了一个全新的空间智能 SOTA。

综合性能提升

GCA 取得了 65.1% 的平均准确率，显著超越了现有基于训练的方法与工具集成的方法。特别是在极具挑战性的多图空间推理基准 MMSI-Bench 中，面对复杂的视角变换与相对方位推断，现有主流模型往往只能徘徊在 25%~30% 左右的「随机猜测」水平线。

而基于 Qwen3-VL-Thinking 构建的 GCA，准确率从 32.6% 跃升至 47.6%。这一数据证明，GCA 成功让 VLM 摆脱了「蒙答案」的困境，向具备可靠的空间推理能力迈出了关键一步。

强大的通用性

GCA 并非特定模型的「专属补丁」，而是一种无需训练（Training-free）的通用推理范式，可直接赋能各类基座模型。

实验显示，在搭载 GCA 架构后，受测模型在 MMSI-Bench 上的性能平均实现了约 37% 的相对提升。其中，基于 Gemini-2.5-Pro 构建的 GCA 表现尤为惊艳，其准确率从 36.9% 飞跃至 55.0%，有效地激发了顶级模型的空间推理潜力。

打开网易新闻查看精彩图片

通过系统的消融实验与归因分析，研究进一步证实了 GCA 架构的前瞻性：

打开网易新闻查看精彩图片

可解释的错误归因：得益于 GCA 架构的模块化设计，研究团队能够对推理链路进行精确的错误归因。分析显示，VLM 在「任务形式化」阶段的准确率已高达～70%，当前主要错误来源于下游感知工具（如 3D 重建失败或遮挡）。这表明，GCA 的推理逻辑是稳健的，其性能将随着感知模型的进步而持续提升。

打开网易新闻查看精彩图片

总结与意义

GCA 提出了一种「语言定义约束，几何执行计算」的新范式。通过将模糊的空间查询转化为带约束的数学问题，GCA 有效避免了 VLM 在有损语义空间中进行不可靠的空间想象。这不仅大幅提升了推理的准确性，也让机器向拥有「几何直觉」迈出了关键一步，回应了攀登「空间智能」高峰的核心挑战。

特别声明：本文为网易自媒体平台“网易号”作者上传并发布，仅代表该作者观点。网易仅提供信息发布平台。

打开网易新闻体验更佳

引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

热搜

热门跟贴

相关推荐

引入几何约束后，VLM跨越了「空间推理」的认知鸿沟

热搜

热门跟贴

相关推荐

数学研究证实-强大AI必现意外行为，单一控制是幻觉

别再被科幻误导！四维空间其实是数学对三维认知的颠覆

别以为贴砖只是铺砖！真正高手玩的是普通人看不懂的几何思维

泡沫立方体=多维空间？太颠覆认知

知识的力量在此刻具象化了

形式语言与计算机科学——Chomsky层级揭示的认知压缩极限(6/16)

MagicWorld：用光流约束+历史记忆+多步训练，让长时程交互稳定不漂移

深度长文：量子世界里，观测为何会导致波函数坍缩？

《全息原理在真实物理中的适用范围问题》新宇宙观 12.6

引力常数又测出一个新数，物理学还在头疼

“爱因斯坦飞镜”启发科学家打造超强光束

第一次这么直白地感受物理，左右摇晃手机，你会发现他们都静止了

线面可以无限繁殖，可千万不能凭感觉下，完全把观众当傻子！

打破推理同质化！阿里达摩院新作让RLVR从重复采样走向有效探索

6小时，200美元，0人类代码：Anthropic把AI编程推过了临界点

商汤SenseNova U1深度拆解，原生统一架构终结缝合时代

从智能体到赛博员工，生产力智能涌现

Anthropic和黄仁勋，都在担忧 Deepseek+华为

奥特曼亲推！400万周活Codex杀入移动端，码农不用再死守电脑了

00后小哥复刻Claude最强神话模型OpenMythos