← 返回首页
雷峰网 https://www.leiphone.com https://www.leiphone.com/resWeb/images/common/lp_logo.png 雷峰网 https://www.leiphone.com 2015 www.leiphone.com All rights reserved. zh_cn Mon, 25 May 2026 09:41:45 +0800 寻找 AI 的「第三语言」:中间表示如何打通多模态鸿沟 | CVPR 2026 https://www.leiphone.com/category/ai/Hy3aSP6RBtgHE310.html “请把杯子拿起来”。

这句话对你来说轻而易举。因为你看到了杯子,理解了“拿起来”的含义,手自然地伸过去、捏住、提起。但对一个 AI 系统来说,这中间隔着数道几乎不可逾越的鸿沟:语言到动作、动作到视觉、视觉到空间、空间到执行。

传统做法是强迫模型学会直接映射,通过输入一段文字或一组动作参数,让其直接输出像素级的视频帧或关节角度。这种方法在受限环境和充足标注数据下勉强可行,但一旦面对真实世界的复杂性,系统就会崩溃,因为鸿沟太宽,直接跨越注定失败。

清华大学智能产业研究院赵昊团队在 CVPR 2026 发表的四篇论文,共享着同一个设计哲学:当两种模态之间的鸿沟太大,真正的解法是为它们搭桥,找到一种“第三语言”。这个“第三语言”,就是中间表示。

这四篇论文分别从动作到视频、图像到 4D 场景、首帧到未来视频、异构硬件到统一策略四个不同的角度,验证了同一个核心假设:引入合适的中间表示,比强迫模型学会直接映射更有效。

01

ORV:当机器人看视频时,它在看什么?

机器人学习领域有一个看似简单却长期未能很好解决的问题:如何让机器人通过观看人类操作视频来学习新技能?

这个问题的困难程度远超想象。对人类来说直观的东西,对机器人来说却是无法理解的数据流,因为视频是一帧帧像素,动作是七维或更高维的连续控制信号,这两种表示之间存在巨大的“表征鸿沟”。

现有的机器人视频生成方法通常采用端到端的方式:输入动作序列,直接输出对应的视频帧。这种做法在实践中面临两个根本性问题:

这个问题背后有一个更深层的原因:人类在理解动作时,是在一个抽象的 3D 空间表示中进行思考,而不是通过和机器人一样通过像素去构造世界。当你看到一只手伸向杯子,你脑中构建的是一个 3D 的“手——杯关系”,如果机器人也能在这个 3D 空间表示中进行推理,那么它对动作的理解将会深刻得多。

ORV(Occupancy-centric Robot Video Generation)正是从这个洞察出发的。

它的核心思路是:在动作空间和像素空间之间,插入 Occupancy 作为中间表示,让动作先变成 4D Occupancy,再从 Occupancy 渲染成视频。

什么是 Occupancy? 

它是一个结构化的 3D 表示,通过在空间中的每个体素上标记“是否被占据”,来实现对场景几何的紧凑描述。

当动作被转换成增加了时间维度的 4D Occupancy 序列,动作的空间含义就被显式地表达了出来。此时的逻辑从抽象的“关节角度变化了这么多”转变为具象的“手在 3D 空间中移动到了这里,与物体发生了这样的交互”。

同时,Occupancy 天然地解决了多视角一致性的问题:一旦拥有了 4D Occupancy,从任意视角渲染出对应的视频帧就变成了一个确定性的投影问题,从不同视角投影出的视频自然高度一致。

ORV 框架

ORV 的技术实现分为两个阶段。

两步映射,每一步的鸿沟都比直接从动作到视频窄得多。

这个设计的价值很快在实验中得到了验证。ORV 在多个标准机器人视频生成 benchmark 上进行了评估,结果显示它在 FVD(Fréchet Video Distance)上比最强的端到端基线降低了 18.8%,生成的视频在视觉质量和时间一致性上都显著更优。

更有说服力的是,当把这些生成的视频用于训练机器人策略时,ORV 生成的视频帮助策略在真实机器人任务上取得了 +6.4% 的成功率提升。这 6.4% 的飞跃,本质上验证了“第三语言”假设:更好的中间表示能带来更高的生成质量,并让生成的数据对下游任务更有价值。

ORV 训练数据集整理流程

由于在 Occupancy 空间中进行推理,ORV 学到的动作-Occupancy 映射在一定程度上是物理真实的,且不依赖于特定的视觉纹理。这使得它能够在仿真环境中训练,并直接在真实机器人上生成视频,实现了 Sim-to-Real 的跨域迁移。而 Occupancy 作为可解释的结构化表示,其生成的序列可以被人类直接观察和理解,这对于机器人学习系统的调试和安全验证至关重要。

从更广阔的视角看,ORV 揭示了一个在多模态 AI 中具有普适性的设计原则:当你试图在两个差异巨大的模态之间建立映射时,不要强迫模型直接消化,而是为它们找到一种中间表示,让映射分两步走。这个原则,正是后续几篇论文共同的方法论基础。

论文链接:https://arxiv.org/abs/2506.03079

02

DGGT: 无需姿态的动态场景重建

从 NeRF 到 3D Gaussian Splatting,从单目深度估计到多视角立体视觉,3D 和 4D 重建在近年取得了令人瞩目的进展。但几乎所有方法都在默默接受一个假设:你必须知道相机的位姿。

这个假设在受控环境下是合理的,你可以预先标定好相机,或者用 COLMAP 等工具从输入图像中估计位姿。但一旦离开受控环境,在动态场景、弱纹理区域或相机快速运动时,位姿估计的误差就会直接传递到最终的重建结果中。

这主要是因为位姿估计和场景重建是两个分离的步骤,前者的误差无法被后者纠正,从而导致误差累积。

但类比人类的视觉,我们在看一组图片时,即使不知道精确的相机位姿,也能理解场景的 3D 结构。由此可见,相机位姿或许并不是 4D 重建的必要条件,它只是技术实现中的一个“便利假设”:它强行把“场景内容”和“观察视角”捆绑在了一起,而这两者其实是可分离的信息。

DGGT(Dynamic Gaussian Graph Transformer)做了一个大胆的事情——把相机位姿从“输入”变成了“输出”。它提出了一个端到端的框架,输入一组无关联的图像,可以是单目视频,也可以是多视角图像,甚至可以是完全无序的图像集合;输出两个东西:场景的 4D 动态表示,以及每张输入图像对应的相机位姿。

这个设计让模型在学会重建场景的同时,自己推断出每张图像是从哪个视角拍摄的。这听起来像是一个“不知道位姿就没法重建,不知道重建就没法估计位姿”的恶性循环,但 DGGT 通过 Transformer 架构的全局注意力机制,实现了位姿推断和场景重建的相互迭代优化。

整体架构图

DGGT 的核心表示是 Gaussian Map。每个场景被表示为一组包含位置、协方差、颜色、不透明度以及时间维度动态变化的 4D Gaussian 参数。

作为一种显式的 3D 表示,它不像 NeRF 的隐式表示那样需要体积渲染;它不仅可微、可端到端训练,而且非常高效。最重要的是,它是与相机位姿解耦的。

一旦拥有了 Gaussian Map 作为场景的 4D 表示,相机位姿的估计就简化为了一个对齐问题:通过调整相机位姿,使得从当前位姿渲染出的视图与输入图像最匹配。渲染、比较、调整位姿、调整 Gaussian Map,整个过程循环迭代,端到端地进行。

DGGT 是成为首个真正实现无位姿 4D 重建的方法之一。此前的 pose-free 方法大多局限于静态 3D 重建且需要额外约束,而 DGGT 能够同时处理动态场景和未知位姿,且不需要任何位姿标注。

更令人印象深刻的是它的泛化能力:在 Waymo 数据集上训练的 DGGT,可以直接零样本迁移到 nuScenes 数据集上进行 4D 重建,LPIPS 降低了 61.4%。这个跨数据集的泛化能力,很大程度上得益于 Gaussian Map 作为与位姿解耦的中间表示。

DGGT 的另一个精巧设计是“Lifespan Head”。在 4D 动态场景中,不同的 Gaussian 有不同的“生命周期”:墙壁和地板在整个时间序列中都存在,而移动的车辆和行人只在某些时间帧中出现。

Lifespan Head 的作用就是预测每个 Gaussian 的出现和消失时间。论文的消融实验显示,去掉该模块会导致 PSNR(峰值信噪比)下降 3.2 dB。这再次验证了中间表示的力量:引入一个专门的中间预测目标,如每个 Gaussian 的生命周期,模型能学会更好的 4D 场景动态建模。

在速度方面,传统 4D 重建方法通常需要数分钟到数小时来重建一个动态场景,而 DGGT 的前向传播只需要 0.4 秒。这种高效率意味着 DGGT 可以被部署在需要实时 4D 重建的应用场景中,例如自动驾驶的实时环境建模和机器人的实时场景理解。

 只需0.4 秒的前向传播

DGGT 最深刻的启示在于:它挑战了“需要多少先验知识”这个根本问题。在传统流程中,相机内参、外参、深度图或点云等先验知识就像拐杖,虽然让问题变得可解,但也让整个系统变得脆弱。DGGT 的方向是扔掉这些拐杖,因为一个好的中间表示应该能够从数据中自己学会这些信息。

这个思想,与 ORV 的“Occupancy 作为中间表示”形成了有趣的呼应:ORV 用Occupancy 让动作和视频之间的鸿沟变窄了;DGGT 中,Gaussian Map 让图像和 4D 场景之间的鸿沟变窄了。两篇论文虽然应用场景截然不同,但共享着同一个设计哲学——找到一个与输入/输出解耦的中间表示,让复杂的问题分解成两个简单的问题。

论文链接:https://arxiv.org/abs/2512.03004

03

PAM:三级“翻译链”的精巧设计

如果要让一个 AI 模型预测“接下来会发生什么”(例如给定一张起始帧图像和一系列动作,生成接下来若干帧的视频),那你将会面临一个由几何、外观、时序交织而成的巨大组合复杂性问题。

这个被称为“视频预测”的任务极其困难,因为这些因素在像素层面高度耦合。

现有的方法大致分为两类。一类是端到端方法,直接用巨大的视频生成模型从起始帧+动作生成未来帧。Sora、VideoPoet 等大模型是这类方法的代表,它们在生成质量上令人印象深刻,但计算成本极高,生成结果的可控性也差;另一类是解耦方法,试图把视频预测分解成几个子问题,可控性更好,但子问题之间的误差会累积,手工设计的解耦方式也往往不是最优的。

PAM(Pose-Appearance-Motion)走的是一条中间路线。它设计了一个三级级联的“翻译链”,每一级解决一个相对简单的问题,每一级的输出作为下一级的输入。

这个三级级联的设计有几个精妙之处。

首先,它成功分解了组合复杂性,分开处理姿态、外观、运动比混合处理要简单得多。其次,每一级都变成了相对简单的映射问题,每一个局部映射的鸿沟都比直接端到端映射要窄得多。第三,级联设计带来了极好的可控性,你可以独立地修改姿态、更换外观或微调运动细节,每一级的输出都做到了可解释、可编辑。

“三级级联”架构图

PAM 的实验结果令人印象深刻。在分辨率方面,此前的机器人视频预测方法受限于计算成本和模型容量,通常只能生成 256×256 分辨率的视频,这个分辨率对于实际应用来说太低了,PAM 将生成分辨率提升到 480×720,像素量是此前方法的 3.3 倍到 4.5 倍,这种提升得益于级联设计分摊了计算压力。在质量上,其 FVD 相比最强基线降低了约 25%(从 38.83 降至 29.13),且推理速度不减。

但 PAM 最有说服力的实验在于对下游任务的赋能。在机器人抓取任务的测试中,使用 50% 真实数据 + 50% PAM 合成数据训练的模型,达到了与 100% 真实数据训练相当的性能。 这标志着合成数据对下游任务的“可用性”终于跨过了临界点——从早期的“凑数”变成了真正“可用”。

使用不同比例真实数据的数据增强分析

PAM 还实现了与所有现有方法的本质区别:零真实首帧依赖。此前的视频预测方法都需要至少一帧真实的起始帧作为参考,而 PAM 通过将姿态、外观、运动三级完全解耦,使得即使在没有真实首帧的情况下(比如只有文字描述或者语义布局),也能生成合理的视频。它把视频预测从一个“基于参考的渲染问题”提升到了一个“从结构化表示生成视频的问题”,大大扩展了应用范围。

PAM 最值得思考的地方在于它展示了“中间表示”可以串联成链。ORV 中有一个中间表示(Occupancy),DGGT 中有一个中间表示(Gaussian Map),到了 PAM,中间表示变成了三个级联的表示(Pose → Appearance → Motion)。

这暗示了一个可能的通用设计模式:当一个直接映射的鸿沟仍然太宽时,可以尝试在中间插入多个级联的表示,让复杂性逐层分解。

这个模式在人类认知中也能找到对应,当你想象“接下来会发生什么”时,你并不是一次性地在脑海中渲染出完整的未来画面,而是先想“大概会发生什么”,再想“涉及的东西长什么样”,最后补充细节。

论文链接:https://arxiv.org/abs/2603.22193

04

UniDex:让所有灵巧手说同一种语言

灵巧手是实现通用机器人操作的关键硬件。

从 6 自由度的简单二指夹爪,到 24 自由度的 Shadow Hand,不同灵巧手有不同的自由度数量、不同的关节结构、不同的驱动方式。但这个领域有一个长期困扰研究者和工程师的问题:硬件碎片化

为一个灵巧手训练的策略,往往无法直接迁移到另一个灵巧手上。如果想在不同硬件平台上都实现灵巧操作,基本上需要为每一个平台单独收集数据、单独训练策略,这在工程上是无法扩展的。更深层的问题在于,整个领域的研究也因硬件碎片化而各自为政,不同硬件上得到的实验结果甚至无法直接对比。

这个问题本质上也是一个“模态鸿沟”问题。不同的灵巧手虽然都旨在实现“灵巧操作”,但它们的“动作语言”完全不同。直接在两种完全无关的机械关节语言之间做映射,就像在两种完全无关的语言之间直接翻译,几乎是不可能的任务。

UniDex 提出了一个优雅的解法:设计一个统一的动作空间,让所有灵巧手都“说同一种语言”。这个统一的空间叫做 FAAS(Function-Actuator-Aligned Space)。

FAAS 不再用“关节角度”来描述灵巧手的动作,而是用“功能”来描述比如“捏住这个物体”、“包裹住这个物体”、“用拇指和食指夹住这个物体”,这些是与具体硬件无关的高层语义。

具体来说,FAAS 对每一种灵巧手定义了一个“功能基元”集合(如 pinch、wrap、press 等),每个功能基元对应一组通过运动学逆向求解得到的关节角度配置。每种灵巧手的动作都被投影到这个共享的功能基元空间上,相当于做了一次“翻译”:把 Allegro Hand 的 16 个关节角度翻译成“它在执行哪个功能基元”,再把“这个功能基元”翻译成 Shadow Hand 的 24 个关节角度。

策略在这个统一的空间上训练并输出与硬件无关的“功能基元”,需要在具体硬件上执行时,只需将其转换成该硬件的关节角度即可。

UniDex-VLA 的概述

这个设计的精妙之处在于,它把“硬件异构性”从“策略学习阶段”推迟到了“执行阶段”。策略学习只需要在统一的 FAAS 空间中进行,不需要关心具体硬件;硬件的差异由 FAAS 的投影层来处理。这就像是你用中文写文章,需要发表时再翻译成英文、法文、日文其他语言一样,文章的核心内容只需要创作一次。

UniDex 的实验结果令人印象深刻。在一个灵巧手上训练的策略,可以直接部署到另一个完全不同的灵巧手上,无需任何微调。论文在 8 种灵巧手上验证了这种零样本跨手迁移能力,涵盖了 6 自由度到 24 自由度的广泛范围,这意味着机器人操作策略的“硬件依赖性”可以被消除。

同时,UniDex 构建了包含 50K+ 轨迹的大规模灵巧操作数据集,为全行业提供了一个宝贵的统一基准。在面对困难的多阶段工具使用任务时,UniDex 取得了 81% 的任务完成率,达到了此前方法难以企及的高度。

UniDex 的介绍

FAAS 作为中间表示的意义,与前几篇论文一脉相承。 UniDex 用 FAAS 弥合了异构硬件与统一策略之间的鸿沟。

论文链接:https://arxiv.org/abs/2603.22264

05

结语

回顾这四篇论文,一个清晰的设计模式浮现出来:当两种模态之间的鸿沟太大,直接映射注定失败。真正的解法,是为它们找到一种“第三语言”。

ORV 用 Occupancy 作为动作和视频之间的第三语言;DGGT 用 Gaussian Map 作为图像和 4D 场景之间的第三语言;PAM 用 Pose、Appearance、Motion 三级级联作为首帧和未来视频之间的第三语言;UniDex 用 FAAS 作为异构硬件和统一策略之间的第三语言。

这四篇论文不仅仅是四篇独立的 CVPR 2026 论文。它们共同指向了一个可能在多模态 AI 中具有普适性的设计原则:中间表示是消除鸿沟的系统性解法。

这个原则的实践意义是明确的:下次你面对一个多模态 AI 问题,在急着扩大模型、增加数据之前,先问问自己:这两种模态之间的鸿沟是什么?有没有一种中间表示,可以让这个鸿沟变窄?

有时候,一个好的中间表示,胜过十个更大的模型。雷峰网

]]> 人工智能 https://www.leiphone.com/category/ai/Hy3aSP6RBtgHE310.html#comments Fri, 22 May 2026 11:45:00 +0800 谷歌掀桌,一口气甩出16个AI王炸 https://www.leiphone.com/category/ai/k2qs0VRU74Ub6CCw.html

Google I/O 向来是全球开发者日历上最密集的信息节点,更是科技巨头宣示AI野心的最高舞台。

2026年5月19日,加州山景城,Sundar Pichai 在两个小时内扔了16款核心产品更新。其中有5个产品各自坐拥30亿用户,Gemini 助手已有9亿用户,搜索AI Mode上线仅一年,月活突破10亿。

没有"One More Thing"的悬念节奏,没有刻意留到最后的重磅彩蛋。Google选择了一种近乎轰炸式的信息发布策略:把所有东西一次性摊在桌面上。

Pichai在台上说了一句耐人寻味的话:"最前沿的Agent可能只触达过世界上0.1%的人。真正的问题,是怎么把这种前沿能力规模化交付给真正的更广泛的用户。"

这话的潜台词很直白:Agent 今天还是少数极客和高端企业的玩具,但 Google 要把它变成30亿人的日常。

Google I/O 2026的发布清单(部分)

详情链接:https://blog.google/innovation-and-ai/technology/developers-tools/google-io-2026-collection/


01

饱和攻击:Google如何封死所有入口

如果把Google这次发布的产品叠起来看,可以读出四层清晰的结构。

模型层是最底层。

Gemini 3.5 Flash承担的是"压低Agent边际成本"的任务。它的输出速度是同级别前沿模型的4倍,价格却不到一半。

Pichai在台上算了一笔账:一家头部企业如果一天处理一万亿token,把80%的负载从其他前沿模型迁到3.5 Flash,一年能省下超过10亿美元。

产品层是用户直接感知的部分。

此次产品层最大的变化是Gemini 从“一个 AI 应用/助手”变成跨搜索、办公、邮箱、视频、开发、图像、硬件和 Android 系统的通用代理层

比如Search Generative UI、Ask YouTube等产品说明搜索已经可以直接理解内容、定位片段、生成答案和交互布局。

这意味着 Google 最核心的搜索产品,正在从“信息检索”走向“答案与任务界面”。

Gemini Spark、Daily Brief、Information Agents、Android Halo 都是做持续运行的个人代理,说明 AI 不再只是被动响应,而是开始常驻、主动、跨应用工作。

尤其是Intelligent Eyewear等硬件方面的新品,本质上是在抢“下一代默认交互界面”。

商业层解决的是"Agent怎么赚钱"的问题。

Universal Cart是跨平台购物车,带兼容性检查和价格追踪。Compute-Used计费取代了每日限额,新增的100美元/月Ultra档位和降至200美元/月的原档位,构成了更精细的定价梯度。

基础设施层是支撑一切的底座。

Google 内部日处理token已经从3月的5000亿激增至如今的3万亿以上,每月跨自家产品处理的token已达3.2千万亿,是2025年I/O时480万亿的7倍。全球部署超过100万颗第八代TPU,首次走"双芯片"分工路线。8T专做训练,8I专做推理,构成了竞争对手难以复制的护城河。

"25年来最大的搜索升级"。

这些产品更新中,最重要的在于搜索AI Mode,被Google称为"25年来最大的搜索升级"。

传统搜索是"用户输入关键词,搜索引擎返回链接列表"。而AI Mode是"用户用自然语言描述需求,搜索引擎直接生成答案、执行操作、甚至代用户完成任务"。

Generative UI让搜索框根据查询内容动态生成不同的界面布局。查天气时自动生成带图表的dashboard,查股票时自动生成走势图,查餐厅时自动生成地图和评分卡片。

Custom Dashboards(Mini Apps)让用户可以创建持久化的自定义追踪面板。比如追踪某个股票的实时数据、某个航班的动态、某个电商商品的价格变化。这些面板超越了静态网页的范畴,完全由AI动态生成交互式界面。

Information Agents则更进一步。它们超越了"用户查询时才响应"的传统模式,转向7x24小时后台监控。当某个用户关心的信息发生变化时,Agent主动推送通知。

这意味着搜索框正在从"检索工具"变成"AI工作面"(Runtime)。搜索框变成了一种常驻的背景能力,随时待命。

Gradient Flow创始人Ben Lorica在会后写了一篇分析,核心判断是:"Google used this I/O to stake a claim on the agentic layer, and the ambition is wider than any single product."

他的观察是:Google的方向很明确,要让AI从"回答问题"升级为"运行界面、工作流和代理,覆盖整个生态系统"。

从模型层到产品层到商业层到基础设施层,每一层都在为同一个目标服务:让Agentic AI成为Google生态的默认运行模式。

9to5Google对此的报道很直接:"At I/O 2026, Google announced a tidal wave of new Gemini-powered features across its biggest products and services."

"Tidal wave"这个词选得准确,Google没有给竞争对手留下任何可以喘息的缝隙。搜索、浏览器、手机、眼镜、办公套件、开发者工具、购物、科研,全部被Agent覆盖。

但Google再一次的饱和式发布不是炫耀,是焦虑。

在Agent赛道上"虽迟但到"的Google,正在用生态广度弥补单点创新的不足。

Gradient Flow的Ben Lorica说得更直接:Google用这场I/O宣示了对Agentic层的主权,其野心远超任何单一产品。


02

阻击OpenAI:模型竞赛的另一条战线

Gemini 3.5 Flash是发布会当天全面可用的产品,也是Google阻击OpenAI的核心武器。

这是谷歌最强的Agent和编程轻量模型,能部署多个子Agent协同完成任务,在几乎所有基准测试上超过上一代旗舰Gemini 3.1 Pro。

输出速度是其他前沿模型的4倍,在Antigravity中优化后可达12倍。价格不到同档前沿模型的一半。这种速度与性能的平衡使3.5 Flash成为处理长时程Agent任务的最理想选择。

由此可见,Google选择的竞争维度已经超出了"谁的模型更聪明",转向"谁的模型更便宜、更快、更容易规模化部署"。

速度只是表象。真正的杀招在生态位。

OpenAI目前是一个"有大脑、没身体"的巨人。GPT-5.5在基准测试上依然领先,但用户需要通过API把它接入别人的产品里。

而Google展现的则是"全地形作战"能力:用户不需要打开ChatGPT、不需要切换应用,就在Workspace、手机系统、搜索框里完成所有任务。

Workspace的集成是原生的。Gmail里语音编辑,Docs里语音"头脑风暴"创建文档,Keep里语音操作。Microsoft 365也能接OpenAI的API,但那是嫁接,这是内置。

更狠的是定价策略。Google Search免费使用3.5 Flash。OpenAI的同等能力需要付费。

Pichai算了一笔账给CIO听:一家头部企业一天处理一万亿token,把80%的负载从其它前沿模型迁到3.5 Flash,一年能省下超过10亿美元。

他还透露了一个极限测试:在尚未发布的3.5 Pro支持下,Google曾让93个不同Agents协同工作,消耗26亿token,从零建造起一个复杂系统项目。

这充分展示了Agent编排的规模化能力。

OpenAI当然不会坐以待毙。Codex已经上线移动端,Operator在做Agent探索。但Google这一轮饱和攻击的底层逻辑很清楚:AI竞赛从"谁拥有最好的模型"转向"谁拥有运行智能体的完整堆栈"。

事实说明,OpenAI可能在某些基准测试上领先,但Google在"把模型推到用户面前"这件事上拥有结构性优势。


03

围剿Anthropic:编程赛道的官方化战争


Antigravity 2.0是这场I/O中最被低估的发布。

它从"面向开发者的智能体式IDE"转向"通用多Agent编排平台",作为独立桌面应用成为Agent交互的中央枢纽。任何人都能编排Agent完成各类任务,不限于编码。它可以同时部署多个Agent,一个写代码、一个生成素材、一个规划架构。

最关键是Antigravity SDK,它让第三方程序可直接、可编程地访问驱动Google自家产品的同一套Agent harness。

这是在构建Agent时代的"Android"。

Google内部测试显示,Agent完全从零搭出一个能跑的操作系统,API耗费在1000美金以内。

但开发者社区的反馈并不一边倒。Gradient Flow的调研显示,部分开发者认为Google的编码体验"sloppy",尤其在深层系统级工作中表现不佳。Gemini在Agent编码和工具使用方面仍落后于OpenAI和Anthropic。

这恰恰说明了两种生态哲学的碰撞。Anthropic的Claude Code走的是"精英路线",SWE-Bench Pro 64.3%当前公开基准领先,强调安全、可靠、高质量。

Anthropic收购Stainless,买的是"顶级人工把关最后防线"。Google的Antigravity走的是"官方化"路线,用基础设施规模加多Agent编排加极速性能,把编程Agent变成Google生态的默认选项。

前者是"少而精",后者是"大而全"。

Cursor年收入突破20亿美金,证明了编程Agent市场的巨大空间。Google现在带着3.5 Flash的1000美元搭系统成本杀入,对整个独立开发者工具赛道都是一次降维打击。

部分开发者看好Google的集成优势,尤其是与Android、Firebase、Google AI Studio的原生打通,这是OpenAI和Anthropic所不具备的。

但从业者会根据其在真实代码库中的可靠性来评判。编排故事很有前景,但粗糙的编码体验能不能撑起企业级应用,还需要时间验证。


04

Gemini for Science:

把AI从"回答问题"升级为"做科学研究"

在整场发布会中最具长期战略意义、也最耐人寻味的,莫过于 Gemini for Science 的低调亮相。

这一布局,完美印证了我们之前对大模型演进范式的判断。

快思考是Thinking Machine Lab的等一批OpenAI叛将的路径。Altman强调了当前大模型在瞬时响应上的极限,表示快不一定代表好,现在Google则是在此基础上,实现超级加倍。

Gemini for Science的定位很明确:"人类创造力的倍增器"。不止于问答,覆盖假设生成、计算验证、文献综合的完整科学方法闭环。

Gemini for Science的三大实验性原型工具已在Google Labs推出。

Co-Scientist通过多智能体"创意竞赛"生成、辩论并评估假设,所有主张均经过深度验证并附可点击引用。

AlphaEvolve并行生成并评分数千种代码变体,BASF用它优化供应链,Klarna用它将训练速度翻倍。

NotebookLM检索科学文献,将结果结构化为可自定义属性的表格,支持聊天式深挖并生成报告、幻灯片、信息图及音视频概述。

Science Skills直接集成于Antigravity等平台,整合超过30个主要生命科学数据库和工具,将结构生物信息学和基因组分析从数小时缩短至数分钟。

这背后是DeepMind二十年的科学AI积累。Co-Scientist来自DeepMind,AlphaEvolve来自DeepMind,直接集成AlphaFold Database和AlphaGenome API。AlphaFold已帮助超过300万研究人员。

相比于 OpenAI 还在探索如何让模型“显得有逻辑”,拥有 DeepMind 血统的 Gemini for Science 显然更值得大众和整个科学界期待,它代表着 AI 真正进入改造客观世界的深水区。


05

Agent时代的胜负手

Google I/O 2026 是一面镜子,照出了大模型战争下半场最残酷的演进规律:Agent 时代的胜负手,在于谁能先终结延迟和模态切换。

在过去两年里,AI 创业圈享受了一段黄金般的“小确幸”时代。无数独立开发者和独角兽公司的成功模式,本质上都是“在 ChatGPT 之外,找一个细分场景,做一个体验好 10 倍的包装 App 或插件”。

但 Google 这场饱和式发布,用近乎粗暴的方式传递了一个信号:用“原生一体化”消解 OpenAI 辛苦建立的“插件生态”和创业者的生存空间。

当用户不需要在窗口间切换上下文,不需要跨生态忍受网络延迟,就能在系统底层和日常工具里调用一切 Agent 能力时,那些“套壳”和“单点创新”的工具溢价空间将被无情压缩。

这标志着 AI 领域的一系列“小确幸”时代彻底结束了,“大帝国”的全面竞争正式开启。

在这场关于“入口所有权”的终极绞杀中,没有公司能偏安一隅。巨头已经携千亿资本筑起高墙,而留给独立开发者的,将是一场必须向着极高精度和绝对中立长尾进军的生死突围。雷峰网

]]> 人工智能 https://www.leiphone.com/category/ai/k2qs0VRU74Ub6CCw.html#comments Fri, 22 May 2026 11:41:00 +0800 Anthropic 花 3 亿美金买下 API「修路工」,打响连接层暗战 https://www.leiphone.com/category/ai/Yqq5YAFbgrGAusRi.html 5月18日,Anthropic宣布了一笔看似“平淡”的收购:买下纽约的开发者工具公司Stainless,估值超过3亿美元。

被收购的公司Stainless不是一家普通的 SaaS 公司,它的特殊之处在于,它几乎服务了AI行业的所有头部玩家。其客户名单里躺着 OpenAI、Google、Cloudflare、Replicate 和 Runway 等一众硅谷巨头。

Stainless 的核心业务听起来甚至有些枯燥:将结构化的 API 规范,自动转换为 TypeScript、Python、Go 等各种语言的 SDK(软件开发工具包)。同时提供CLI工具和MCP(Model Context Protocol)服务器平台。

自Anthropic API上线第一天起,Stainless就在为每一个官方Anthropic SDK提供底层支持。

收购消息公布的同时,Anthropic宣布关停Stainless对外托管的SDK生成服务。现有客户可以保留已生成的SDK自行修改,但这条生产线不再对竞争对手开放。整个Stainless团队并入Anthropic平台工程部门,继续"让Claude Agent更好地连接真实的软件系统"。

3亿美元,足以买下一家中等规模的AI创业公司,或者建两座超级数据中心。Anthropic却用它买了一支人类工程师团队,专门做"把API规范转成代码"这件事。

这意味着Anthropic已经把模型竞争从“谁的模型更强”扩展到“谁能控制开发者接入、SDK、文档和 API 分发链路”的高度。Anthropic的生态布局,再下一城。


01

3亿美元,

Anthropic扇了自己一个耳光

Anthropic CEO Dario Amodei在2024年的万字长文《Machines of Loving Grace》里中曾断言:"强大AI将在未来几年内完成大部分认知劳动(most cognitive tasks)",时间窗口"最早可能在2026年"。

他多次强调,AI Agent将自主完成需要数小时、数天甚至数周的任务,其智能"超过大多数相关领域的诺贝尔奖得主",能以10-100倍于人类的速度吸收信息并生成行动。

问题是,这套叙事遇到了一个尴尬的事实。

技术极客聚集的 Hacker News 上,一条高赞评论一针见血:“如果 AI 真的已经能写好 SDK,Stainless 就不可能卖出这个价钱。”

这就是Stainless 这类公司的价值所在:单纯写一个基本可用的 SDK,AI能做,但生产级 SDK 不只是把 HTTP API 包一层,而重要的是一套持续、可靠、可规模化的工程基础设施。

更具戏剧性的是,Anthropic 的死敌 OpenAI 恰恰是 Stainless 的最大客户之一。

Anthropic 这套“买断、关停、独占”的连招,在社交平台 X 上引发了开发者的疯狂吐槽:“Anthropic 的竞争策略:和 OpenAI 竞争 → 发现 OpenAI 在用 Stainless → 买下 Stainless → 关停服务。”

这套看似有些“不讲武德”的精明动作,恰恰暴露出大模型竞争正在发生一场底层质变:巨头们的战场,已经从单纯比拼“谁的模型参数更强、做题分数更高”,悄然延伸到了策略端,“谁能控制开发者入口、SDK规范和 API 分发链路,便能全局掌握生存管道”的生态制高点。


02

AI的"最后1公里":

Stainless凭什么值3亿美元

把 API 规范转成代码,听起来是最适合大模型干的活。API 文档是高度结构化的,代码生成也有大把的模板可供参考。按常理推断,给 Claude 喂进去一份文档,它应该能在一秒钟内吐出一套完美的 SDK。

可现实世界却充满了边缘案例,比如奇怪的命名约定、不一致的错误处理、非标准的认证流程、跨语言的类型系统差异。处理这些,需要的是"理解复杂协议并构建稳定底层框架"的顶级工程能力,而不只是"写代码"的能力。

Stainless 能让 OpenAI、Google 乃至黑石(Blackstone)这种对稳定性要求近乎变态的金融巨头买单,靠的是极致的鲁棒性,毕竟,在金融服务、企业级应用这些场景里,一个错误的类型定义或遗漏的异常处理,可能意味着数百万美元的损失。

当初级代码被AI大量淹没,那些能处理边缘案例、理解复杂协议、构建稳定框架的顶级工程师,反而成了AI巨头竞相争夺的"战略资产"。

Anthropic花3亿美元买下的,是一支已经证明能在最苛刻环境中交付稳定SDK的顶级工程团队。


03

为什么是Stainless:

Anthropic的精英路线逻辑

Anthropic一直是"精英路线"的坚定执行者。

和OpenAI试图覆盖从个人开发者到企业客户的广泛市场不同,Anthropic的目标客户一向很明确:高盛、黑石这样的顶级金融机构,以及需要高度稳定API接口的企业级用户。

要赚这些客户的钱,除了智商以外,模型必须有极度稳定的工程接口。

Stainless 所做的事情,本质上是在定义“API 交付的行业标准”。它定义的SDK生成规范,正逐渐演变成 AI Agent 连接外部系统的底层协议。而Anthropic自己主导的MCP(Model Context Protocol)协议,其核心目的也正是为了统一"让AI连接数据、工具和外部服务"的标准框架。

收购Stainless,等于把MCP协议的工程实现标准握在自己手里。

这一步棋的战略意图很清楚:通过控制SDK生成标准和MCP服务器平台,Anthropic拥有绝对的话语权,可以决定"哪些AI Agent能稳定连接外部系统、哪些不能"。

当OpenAI还在用通用模型能力打市场,谷歌在用TPU算力绑定生态时,Anthropic选了一条更窄但更深的路:拼"谁能把AI最稳定、最安全地接入真实业务系统"。

随着AI Agent从"回答问题"向"实际执行任务"演进,连接基础设施的重要性将不亚于模型本身。

Anthropic花3亿美元买下的,正是未来AI Agent生态的"连接标准制定权"。


04

从卷模型到卷生态:3亿美元买断的“生存管道”

Anthropic 对 Stainless 的这场大手笔买断,无情地戳破了大模型行业的阶段性幻觉。

这笔 3 亿美元的估值,表面上是对顶级工程师在 AGI 到来前最后价值的一次溢价定价,但其本质,是 Anthropic 在跨越“模型同质化”陷阱时,下注的一笔战略筹码。

当各大巨头的模型在基准测试上差距越来越小,单纯的“卷参数”已经无法拉开真正的商业代差。AI 竞赛的胜负手,正在以一种反直觉的方式向后方转移。谁掌握了接入工具、谁定义了 SDK 标准、谁垄断了开发者工具链,谁就拿到了通往未来 Agent 时代唯一的门票。

这正是 Anthropic 生态布局的高明之处:它不仅用真金白银买下了人类专家的工程洁癖,去缝补真实世界里的屎山代码;更顺手牵羊,在 AGI 的前夜掐断了竞争对手的生态补给线。雷峰网

]]> 人工智能 https://www.leiphone.com/category/ai/Yqq5YAFbgrGAusRi.html#comments Fri, 22 May 2026 11:39:00 +0800 阿里云为什么「重构自己」? https://www.leiphone.com/category/ai/nQVZmFcBopMuwsCZ.html 如果你连续几年参加云相关的峰会,今年就会有一个明显的感受:话题变了。

过去我们聊云,我们在聊什么?

一来是聊云,我们聊的是怎么把服务器搬上去。

再后来,我们聊的是怎么在云上跑AI,买GPU、调模型、搭推理服务。可能大家还会有印象,去年这个时候,大家的焦点还是哪家云的GPU够便宜、模型推理延迟多少、算力供应够不够。

但今年,行业的问题完全变了。今年云计算行业一个非常大的变化是,大家都开始聊,怎么让Agent自主使用云。

5月20日,杭州,雷峰网参与了阿里云峰会,现场观察到阿里云把这个问题摆到了台面上,而且给出了一个系统性的回答。

从发布搭载自研芯片真武M890的超节点服务器、推出国产第一的旗舰模型Qwen3.7-Max、升级百炼推理平台,到推出100多个云产品Skill、建设Agent原生基础设施、重写云的入口,阿里云正在彻彻底底地为Agent重建从芯片到入口的整套基础设施。

值得注意的是,就在上周,阿里财报刚刚交出AI收入连续11个季度三位数增长、百炼平台ARR突破80亿元的成绩单,消息发布当天阿里股价飙涨8%。

据某云计算行业人士透露:"阿里云在大模型的MaaS市场是规模第一。"他表示,真正的市场按国际通用标准应看大语言模型(LLM),"在这个市场,阿里云一直都是第一,而且还在加速增长。"

从财报到峰会落地全栈Agent化方案,中间没有犹豫期。吴泳铭在财报电话会上将Agent时代定义为"一场计算范式的革命",而这次峰会就是对这场革命的系统性回应。

01 为 Agent革新一朵云

阿里云为何要革新云?这还是要回到一个正在发生的根本性变化,云的服务对象,正在发生巨变。

过去十几年,云产品的使用方式其实很固定:开发者登录控制台,买服务器、配网络、配数据库、部署应用。这背后,有一个云计算行业最底层的产品逻辑,云平台默认"操作者"是人,所有产品设计都是围绕人怎么操作展开的。

但 Agent 时代,这个逻辑开始松动。

就拿雷峰网所在的内容创作领域来说,现在我们已经在用Agent干很多事:扫描几十个信源、提炼观点、生成选题、甚至起草初稿。但你可能没注意到的是,这背后每完成一个任务,Agent都在自动调用云资源、调模型做推理、调存储读历史文章、调搜索接口抓实时信息、调向量数据库做语义匹配。

一篇稿子从选题到成文,Agent可能已经发起了上百次调用。整个过程,人只说了一句话。所以说,真正频繁调用云资源的,变成了Agent。

而且这个变化的幅度,远比看起来大。以前云服务的是几百万登录控制台的人,以后要服务的是数以亿计、永不下线的Agent。阿里云公共云事业部总裁刘伟光在峰会上说,AI劳动者和人类劳动者相比,规模上不仅多了N个数量级,而且可以24×7不间断运转。这是量级跃迁。

而这种量级跃迁,对于云操作系统的影响是结构性的。

这意味着云系统必须从原来为人设计的"人机交互系统",变成面向机器的"机器执行系统"。而当服务对象从人变成 Agent,三个问题必须回答:

第一,怎么让 Agent 真正看懂云?过去的交互界面是给人设计的,Agent 看不懂这些,它需要可以直接调用的标准接口和封装好的专家知识。云产品必须配备一本"机器能读懂的说明书"。

第二,怎么管理海量 Agent 的执行行为?上百万 Agent 同时执行不同任务,怎么调度、怎么隔离、怎么控制成本?这些在传统云的稳态负载时代不是问题,在 Agent 的炸裂式负载面前,每一环都需要重新设计。

第三,怎么保证 Agent 行为的安全?这个问题在云时代几乎不存在。但Agent火了之后,李飞飞说,"很多人问的第一个问题就是,你把任务都交给 Agent 以后,它的安全怎么保障?"传统云安全防的是坏人,Agent 时代要防的是好心办坏事的 AI。这是一个过去从未出现过的新命题。

三个问题,指向同一个结论:不是在云上加一层 AI 能力就够了,而是要用 Agent 的逻辑,从头重写云。

02 阿里云,重写自己

怎么重写?这是阿里云本次峰会上的一大核心内容。

和外界想象的不同,阿里云这次不是只动了云平台这一层,而是从芯片、云平台、模型到MaaS推理平台同时动刀,是一次四层全栈改造。其中云平台层可以概括为两层改造。

第一层,把现有的60多个云产品,改造成Agent能直接调用的标准化技能。李飞飞在峰会上扔了一个时间节点:今年内,阿里云所有云产品都会完成控制面改造,以Agent为优先用户。

具体来看,各条产品线已经在动了。

存储线推出了OSS Agent,帮用户自动管理和优化冷存储空间。数据库线,瑶池数据库长出了自己的Agent,能做自动化运维和数据分析。

数据开发线,DataWorks Agent,提供了一个统一的面向智能体的数据开发平台。安全和运维线也在全面Agent化。用李飞飞的话说,"让每个产品都有自己的Agent。"

第二层,为Agent建一套全新的运行环境,从沙箱运行时、记忆系统、多Agent编排到安全治理,全部从零设计。

目前,阿里云为Agent新建的基础设施拆成了六个方向,其中有三个可以重点展开讲讲。

第一,运行时。Agent不是一直跑着的。它的典型特征是:接到任务,瞬间启动,疯狂调用资源,干完活就消失。这就要求运行环境必须具备两个能力:极速弹性,以及强隔离。

李飞飞给出的数字是:阿里云的Agent沙箱支持百毫秒级冷启动,"一分钟可以开启1万到2万多个沙箱"。同时支持浅休眠和深度休眠,Agent干完活就休眠,有新任务秒级唤醒,不用一直占着资源。

第二,记忆。这一点对Agent来说比对人更根本。人开会可以翻聊天记录,Agent执行跨天任务怎么办?李飞飞把Agent的记忆分了三层:短期记忆,Agent干活干到一半,不能抬头就忘;长期记忆,跨任务的上下文,今天干一半,休眠,明天醒来接着干,中间的上下文不能丢;知识记忆,外挂的企业知识库,通过RAG、向量数据库、多模态数据引擎,让Agent能检索企业沉淀多年的知识。

对应到产品上,阿里云的数据库产品、存储产品、大数据产品等,全线推出了支持长短记忆和知识库结合的功能,分层存储,按需唤醒。

第三,安全。阿里云在峰会上给出的方案是一整套面向Agent的安全体系:Agent安全中心、AI安全护栏、Agent防火墙等产品。除了这三个方向,还有编排、治理、数据平面,每一个方向都在从零开始建。

云平台层的改造之外,这次峰会上同样重磅的,是芯片、模型和推理平台三层的同步升级。

Agent时代的海量并发推理,对底层算力提出了完全不同的要求。平头哥在峰会上发布了128卡超节点服务器,搭载新一代训推一体芯片真武M890与自研互联芯片ICN Switch 1.0。

目前,平头哥AI芯片"真武"累计出货已达56万片,60%以上服务外部客户,服务包括中国电信、中国一汽、浦发银行在内的400多家客户。

全球范围内,拥有自研AI芯片并大规模商用的云厂商只有四家:谷歌、亚马逊、微软、阿里云。在国内市场,阿里云是唯一同时具备GPU、CPU、存储、网络芯片全栈自研能力的公有云厂商,这是独一无二的结构性壁垒。

Agent要完成复杂任务,模型能力是底座。在三方机构Arena全球大模型盲测总榜中,Qwen3.7-Max与GPT、Claude、Gemini最强模型接近,位列国产模型第一。同时该模型编程能力位居前列,面向Agent全新设计,可胜任35小时长程复杂任务。

更值得关注的是迭代速度——近3个月千问旗舰模型已连续迭代3.5、3.6、3.7三个版本,这种迭代节奏在全球旗舰模型中也属最快之列。

Agent的爆发式调用对推理平台的稳定性和弹性提出了极端要求。阿里云在百炼平台上构建了大规模GPU资源集群,并通过一套完整的技术栈来应对Agent场景的特殊挑战。

平台生态同样在加速打开——九家模型厂商入驻百炼,开放接入GLM-5.1、MiniMax M2.7、Kimi K2.6等顶尖模型,开放度对标AWS Bedrock。百炼平台半年内Token消耗增长超10倍,这本身就是Agent时代到来的最直观注脚。

03 千问云:不是新产品,是新入口

前两部分讲了两个判断,第一,调云的主体从人变成了Agent;第二,阿里云用Agent逻辑重写"芯-云-模型-推理"全栈技术体系。但这里还剩下一个问题:当用户从人变成Agent,云的第一个接触点——入口,应该是什么样?

阿里云在本次峰会最后给出的答案,是"千问云"。

乍一看,这是一个新产品发布。放在峰会的压轴位置,也很容易被理解成阿里云又发了一个AI产品。但如果把前两部分的逻辑串起来,你会发现千问云不是又一个产品,而是整套逻辑的终点。

还是先退一步看,过去十几年,云计算的入口一直是一个东西:控制台。

开发者登录进去,左边是产品目录,计算、存储、网络、数据库、安全,几十个大类、上百个产品,像超市货架一样排开。你看中哪个,点进去,看参数、选规格、填配置、下单。但回到第一部分的结论——如果未来频繁调用云的是Agent而不是人,那这套"超市货架"逻辑就从根本上不成立了。

Agent不需要逛货架。它不需要看产品介绍。它甚至不需要知道ECS和OSS的区别,它只需要知道自己要完成什么任务,然后找到能完成这个任务的能力。

这意味着,云的入口必须从产品目录变成一个任务引擎,不是我能卖你什么,而是你想干什么,我来调度。

这就是千问云在做的事。千问云目前对外呈现的,可以拆成三层来理解。

第一层,模型聚合。入口的第一件事,是让用户先接触到"能力"而不是"产品"。过去你打开阿里云官网,最先看到的是产品列表。千问云打开后的第一屏,是模型。据阿里云峰会上公布的数据,千问云集成了150多个模型系列、480多款模型,从千问自身到三方模型全覆盖。

第二层,阿里云把多款云产品改造成了Agent可调用的标准化Skill。千问云就是这些Skill的门面,12条产品线、60多个产品的核心能力,封装成100多个Agent能直接读懂的技能包。

这形成了一个"双面入口":对人来说,你想做什么就找对应的Skill,是一个能力超市;对Agent来说,它通过MCP协议直接调用同一套Skill,不需要理解云产品的内部逻辑。同一个入口,两种用户,一套能力。

第三层,CLI工具。如果说Skill是让Agent看得懂云,CLI就是让Agent用得快。人用云,要登录、选产品、配参数、等部署,每一步都得自己盯。Agent用云,应该是告诉它做什么,它就做完了,中间不需要人插手,也不需要图形界面。千问云提供的CLI工具,让Agent可以自己完成一系列全流程,人连屏幕都不用看。

从模型、Skill到CLI,千问云本质上都在做同一件事,开始重新定义"进云"这件事。

如果说上一代云计算的核心是把服务器搬上云,那么这一代云计算的变化,可能是调用云的人正在消失,Agent,正在成为新的入口。而阿里云所做的,就是提前为Agent时代,把整套云计算逻辑重新搭了一遍。

]]> 人工智能 https://www.leiphone.com/category/ai/nQVZmFcBopMuwsCZ.html#comments Thu, 21 May 2026 16:01:00 +0800 万字长谈丨同济工智院华先胜:工程智能,是 AI 的「成人礼」 https://www.leiphone.com/category/ai/Jt2rH6KG5KI3dbXX.html 复杂工程系统,才是 AI 的深水区。

    作者丨郑佳美

    编辑丨马晓宁

                                                                                                               

今天的 AI 已经足够耀眼。它能在几秒钟内写出文章、生成代码、绘制图像,也能像助手一样拆解任务、调用工具、给出方案。对很多人来说,AI 的未来似乎已经清晰可见:更高效率、更低成本、更少人力,以及越来越自动化的生产流程。

但同济大学工程智能研究院的华先胜院长看到的则是另一面。

在他看来,AI 真正的挑战不在于能不能“说得像人”,而在于能不能进入那些不能靠语言流畅度解决的真实系统。工程世界就是这样的系统,它关乎楼宇是否安全、桥梁是否可靠、交通是否顺畅、能源能否稳定调度、城市能否持续运行。

这里没有简单的标准答案,也不能用幻觉冒充创造力。一个 AI 模型即使能写出完美方案,也不意味着它理解了工程现场。

所以,工程智能要回答的第一个问题是:AI 如何从数字世界走向物理世界?

华院长认为,工程智能不是 AI 与工程的简单相加,它既要用已有 AI 技术解决工程问题,也要从复杂工程系统中倒逼新的 AI 理论和方法,更要把这些能力沉淀为平台、模型、智能体和操作系统,让工程智能从单点突破走向规模化复制。

这也是他从微软、阿里、城市大脑一路走到同济工程智能研究院后形成的判断:AI 落地不能只靠“拿着锤子找钉子”,也不能只靠一个个项目堆起来。真正的工程智能,必须长在产业现场,也必须长成一套体系。

而更深层的是,华先胜并没有把工程智能仅仅看成产业效率工具。他同时追问了另一个更难的问题:当 AI 越来越强,人会不会被系统边缘化?

如果 AI 只沿着替代人的方向发展,它可能带来岗位替代、认知退化和精神操控。但如果换一条路,让 AI 成为人的共创伙伴,让模型/智能体的能力和人类的非逻辑创造力彼此激发,AI 就不再只是“完美机器”,而可能成为一种共生智能。

于是,工程智能在这里获得了双重含义:一方面,它是 AI 进入复杂工程系统的技术路径;另一方面,它也是重新设计人机关系的一次尝试。

基于这些判断,雷峰网·AI科技评论与华院长进行了一次系统对话。对话从“工程智能究竟是什么”开始,一路延伸到复杂工程系统、产业规模化落地、工程智能操作系统、灵感计算、人机互信,以及 AI 时代人的位置。

某种意义上,这不仅是一场关于工程智能的访谈,也是一场关于 AI 未来路径的再追问。

01


工程,是 AI 的试金石

AI科技评论:工程智能对很多人来说还是一个比较新的词。您能否先解释一下,它到底在解决什么问题?

华先胜:要解释工程智能,首先要讲清楚“工程”在这里指什么。今天很多人讲工程,尤其是做计算机的人讲工程,更多想到的是 software engineering,也就是软件工程。但我们讲工程智能时,“工程”至少有两层含义。

第一层是传统工程,也就是推动人类社会进步和发展的那些基础设施与产业系统。比如建造房子、楼宇、桥梁,属于建造;制造本身也是非常大的范围;交通是交通工程,能源有能源工程,材料、医学、海洋等领域里也都有工程问题。

如果稍微收窄一点,可以理解为传统工科所关注的工程问题,包括建造、制造、能源、汽车、交通、海洋等。很多时候,科学和工程之间的边界并不只是看题目本身,而是看推动这个领域发展的方式。比较偏工程方法的,都可以归入工程范畴。

第二层则更接近过去讲的软件工程,但我们不简单称之为软件工程,而是称为“硅基工程”。人工智能要真正实现产业规模化落地,也需要工程能力。

也就是说,当我们用 AI 方法解决了传统工程中的难点问题之后,怎样让它走向规模化?这就需要构建系统、平台和工具,让更多人能够使用,而不是每一个工程问题都必须由顶尖 AI 专家和顶尖工程专家坐在一起才能解决。这个世界上的工程问题太多了,如果都只能依靠少数顶尖专家一对一解决,就很难形成规模化。

所以,工程智能可以有一个比较正式的定义:人工智能与工程实践的深度融合,利用人工智能技术深入解决工程领域的核心问题,实现对工程实践规模化赋能的变革性技术范式。

不过这个定义比较书面,我更愿意从三个层次来解释。

第一层叫“工程 + 智能”。也就是用今天相对成熟的人工智能技术去解决传统工程中的具体问题。例如,在建造领域,设计一栋楼、一座桥时,能不能用 AI 辅助设计,让设计速度更快、方案更合理、更有创意?一栋楼已经建成之后,能不能用 AI 对楼宇健康状况进行预测?在交通领域,能不能用 AI 提升城市交通效率和交通安全?这些都属于工程 + 智能。

它当然也是工程智能的一部分,但还不是最核心的部分。因为这一层往往不一定会对人工智能本身提出非常高的新要求,更多是在已有技术基础上做一些增量创新,解决某个具体领域问题。

第二层才是真正作为一个词的“工程智能”。它不是工程和智能的简单相加,而是因为传统工程领域中存在大量今天技术难以直接解决的问题。

工程系统往往非常复杂,比如建一座桥、优化一座城市的交通、调度一个城市的能源或电力系统,这些都是复杂系统。今天的 AI 技术还不能直接解决这些核心问题,于是它反过来会给人工智能提出新的理论和方法要求。

我们发展新的 AI 理论与方法去解决这些工程问题,一方面推动工程学科和工程技术的发展,另一方面也推动人工智能技术本身的发展。到这个阶段,它就成为一个新的领域,放在学校里讲,也可以说是一个新的学科。

第三层是工程智能操作系统。我们希望把那些看起来高大上的技术,变成大家都能使用的工具。就像今天我们用 Windows、Office、PowerPoint,不需要微软工程师和我们一起写文档、做幻灯片;医生用 CT 做诊断,也不需要理解 CT 机内部如何成像、如何重建,只要会使用设备,就能做诊断、制定治疗方案。工程智能也要走到这个阶段,才能真正被规模化使用。

这三个层次不是先后割裂的。我们现在同时在做三件事:第一,用现有技术去看工程问题;第二,针对工程里的难点问题发展新的方法;第三,从现在开始构建平台系统,今天能解决多少问题,就把多少能力放进系统里。系统变成开放系统之后,更多人也可以一起贡献。

我还经常用“点、线、面”来解释工程智能。点,是解决某一个具体问题。比如某一个蛋白质结构预测,或者某一个作物的育种问题,都是点。线,是能解决一类问题,例如不仅能做大豆育种,也能做水稻、玉米等作物育种,形成一个加速育种的平台。面,或者体,是在一个领域里能解决一组相互关联的问题,比如农业里不仅做育种,还能做精准种植、农业机械化、加工等。

如果只做点,很难形成一个领域或学科;至少做到线,才可能成为一个领域,成为一个平台,成为一种赋能工具。我们的目标是从点到线,再到面。当然,从点到线相对容易,走到面需要很多年的积累。

(2025年5月20日同济大学工程智能研究院成立

AI科技评论:您过去做过城市大脑、视觉智能,也做过 AI 的平台化和系统化。现在推动工程智能,背后的判断是什么?为什么是现在?

华先胜:过去其实也在做,只是还没有那么成体系。今天把工程智能这件事提出来,是因为技术和产业发展到了一个可以更深入、更大规模推进的阶段。

第一个维度是工程本身的需要。工程非常重要,真正改变世界的很多东西其实是工程。当然,工程很多时候来自科学突破,科学理论再进入工程应用,推动人类改造和适应世界。

城市建设、大陆桥梁、飞机、大型水电站、大型建筑,本质上都是工程。中国本身也是工程大国,但今天的工程系统越来越复杂。大型水电站、飞机制造、大型建筑等系统一旦出问题,很多时候是灾难性的,因此迫切需要新的方法来保证可靠性和安全性。

我们过去一段时间做了很多探索,后来发现这和钱学森先生当年讲的“开放复杂巨系统”非常相关。

工程里的很多系统本质上就是开放复杂巨系统:组件非常多,耦合度非常高,相互依赖非常强;同时它不是封闭系统,而是在不断演进,并且与外部环境持续交互。比如电站会受到环境变化、水流变化、能量输入输出的影响;城市交通更是一个不断变化的开放系统。

这类系统还有涌现性。涌现就是从量变到质变,很多规律不是用以往方法能轻易计算出来的。今天大模型也有涌现,但老实说,背后的机制也还没有真正弄明白。

复杂工程系统也是这样:难以建模,模型建不好,就更谈不上推演、预测和优化。因此,工程需要人工智能去辅助、去赋能。雷峰网

第二个维度是人工智能本身的需要。人工智能从深度学习时代发展到 2022 年底之后的大模型、智能体时代,速度非常快,威力也非常强。但它在数字世界里很强,在物理世界里仍然步履维艰。

今天机器人可以打拳、扭秧歌、跳舞,甚至可以跑马拉松,但你让它真正完成一个任务,哪怕不是特别复杂的任务,也并不容易。让它照顾老人、照顾小孩,或者到大街上帮你取一个东西回来,这些都没有那么容易。更不用说真正的工程场景。

如果人工智能要真正成为改变产业的生产力,就不能只成为数字世界的生产力,还要进入物理世界。我们说人工智能是新质生产力,但它只有被规模化使用,才会真正成为现实的生产力。

工业革命也是一样,如果一项技术只停留在少数领域、样板领域,就不会推动产业革命。人工智能接下来除了数字世界,还要进入物理世界;除了样板,还要走向真正的规模化。

第三个维度是技术已经具备了基础。大模型、智能体、物联网、算力,以及过去十几年产业数据化的实践,虽然有成功也有教训,但都为规模化工程智能提供了必要基础。

产业界、政府和社会对人工智能的接受度也比过去高,尤其在中国,大家更愿意尝试。过去十几年,AI 落地往往只解决了一部分核心问题,很多产业核心问题其实没有真正解决,这也是难以规模化的重要原因。

此外还有国际竞争格局。很多人把一些国际计划理解为偏科学智能,但仔细看,其中也包含制造等工程内容。贝索斯较早提出 Physical AI,要投入巨额资金做这件事。

本质上,这也是工程智能的一部分,只是他更多讲制造,我们讲的范围更广。他的做法可能是把传统产业买下来直接改造,而我们更希望提供平台和工具,让产业自己在工具上完成改变。

AI科技评论:您刚才提到,人工智能要从数字世界进入物理世界,真正成为现实生产力。但如果 AI 越来越强,会不会也带来新的风险?比如工作被替代、人的能力退化,甚至被算法操控?

华先胜:这是一个必须正视的问题。我们在全速拥抱 AI 的同时,也要看到它发展路径里存在几重暗礁。

第一重是生存的替代。大模型和智能体已经开始改变岗位结构,特别是初级岗位、重复性岗位,受到的冲击会更明显。第二重是认知的退化。如果一个人习惯把思考、写作、判断都外包给 AI,大脑就会越来越少经历真正的训练。第三重是精神层面的操控。算法比你更了解你的喜好和弱点,它可以不断投喂你想看的东西,让人困在信息茧房里。

所以,问题不只是 AI 技术本身有多强,而是我们到底沿着什么路线发展 AI。如果我们追求的是一个“完美机器”,让它在越来越多场景中 100% 替代人,人就会被逐渐边缘化。它看起来提高了效率,但也可能带来岗位、认知和精神层面的长期风险。

我更关心的,是能不能用技术去解决技术带来的问题。也就是说,不只是靠伦理提醒、靠使用者自律,而是在系统设计之初就避免走向单纯替代人的路径。工程智能要进入物理世界、进入产业核心,就更不能只是做一个替代人的机器,而应该成为激发人类智慧和能力的合作伙伴。

02


工程智能,必须长在产业现场

AI科技评论:您经历过淘宝以图搜图这类超大规模 to C 场景,也经历过城市大脑这类 to B、to G 的复杂系统级 AI 工程。站在今天回看,这些经历让您对 AI 进入工程世界有了哪些不同判断?

华先胜:人工智能领域有很多了不起的团队和人才,他们推动了技术和应用的发展。但如果要把“从技术到产业”这条路真正走通,需要一种综合能力:既要有算法研究能力,对算法原理有深入理解;也要有工程化能力,能够把技术转化为稳定可靠的系统和产品;同时还需要围绕真实业务和应用场景,持续打磨系统架构、产品体验和商业落地路径。

算法、系统、产品、产业落地之间不是一条简单的线,而是高度耦合的关系。过去很多讨论是在说,到底是锤子找钉子,还是钉子找锤子:是先有算法再找场景,还是先有需求再找算法。

经过这些年的经历,我现在想做的事情不是判断到底谁找谁,而是让所有钉子都能有合适的锤子,所有锤子都能找到合适的钉子。更准确地说,是构建一个更大范围的架构,让“找”的问题不再成为问题

如果总在纠结先做技术还是先找需求,就会一直停留在原来的问题里。我的想法是,把大的构想和系统架构设计出来,锤子和钉子都在里面,就可以直接用。

工程智能之所以强调认知,是因为认知会决定做法。为什么要区分“工程 + 智能”和“工程智能”?为什么要强调点、线、面?为什么要构建工程智能操作系统?这些都是过去二十多年经历逐渐沉淀出来的。

从微软搜索、必应搜索相关技术,到阿里拍立淘、城市大脑、医疗健康,再到今天做工程智能,很多理念是一脉相承的。只是今天技术和产业发展到了新的阶段,我想布一个更大的局,让人工智能技术和产业之间的 gap 在设计之初就被缩小,甚至不再成为最难的问题。

AI科技评论:这是否也可以理解为同济大学工程智能研究院的核心定位和出发点?

华先胜:可以这么理解。从学校层面看,最早的初衷是新的工程学科建设需要人工智能介入。做工程智能其实有两拨人:一拨是做工程的人往人工智能方向走,另一拨是做人工智能的人往工程方向走。

这两拨人各有优势和短板。工程领域的人对工程本身的认知非常深,这是他们的专业,也是非常重要的优势,否则你甚至不知道真正应该做什么问题。但他们不一定擅长 AI。做 AI 的人 AI 能力强,但对工程本身问题的认知不够。

两边甚至可能互相觉得对方做得不够好:AI 人可能觉得工程方法太简单,工程人可能觉得 AI 人没有做到正确的问题上。工程智能研究院要解决的一个问题,就是让这两拨人不要割裂开做,而是在一起做。

同济的工程学科是优势,我来到同济做工程智能,也是希望发挥同济工程学科的底座,把工程智能真正变成一个词,而不是两个领域的松散拼接。更大的层面上,就是让人工智能从数字世界走向物理世界,真正成为生产力。

(发布《工程智能白皮书》

AI科技评论:研究院最终希望形成什么能力?是做一批项目,还是建立一套能够持续培养人才、沉淀方法、服务产业的工程智能体系?

华先胜:在回答这个问题之前,我想先补充一点。我过去做人工智能,落地性比较强,不只是写论文、做 demo,而是做真正有几千万、上亿人使用、被现实检验的系统。因此我对行业和领域本身一直有敬畏之心。

现在有一个趋势:谁都想去搞人工智能。这一方面是好事,但如果一个学科的人放弃自身领域,转而去做人工智能本身,不见得是好事。比如医学,如果医学生和医学研究者都去做人工智能,医学本身怎么办?你的优势可能不是人工智能本身,而是你的学科与人工智能的结合。

对于工程、医学等领域的人来说,目标应该是用人工智能推动本学科发展;对于我们做人工智能的人来说,目标则是推动这些学科发展,同时也推动人工智能发展。

我以前做医学人工智能时也有过困惑。我们做医学影像,效果也不错,但好像总是不温不火。后来我想明白了:医学人工智能的目标应该是推动医学的发展。不是说没有 AI 医学就不能发展,而是 AI 带来的技术进步要真正推动医学进步。

就像 CT、MRI 这类技术,它们在医学里有生命力,因为它们改变了医学。如果 AI 只是提升效率,当然也有价值,但生命力不够强。只有推动学科发展,它才会有更强的生命力。

回到研究院的目标,我们不是做项目制,而是要构建一套体系。从可见的结构上讲,我们按照平台、模型、智能体、应用四层来构建。

研究院不是公司,但它也不是一个只做学术的学院,而是一个产学研融合的设计。我们要做学术前沿,也要培养人才,但还要把成果变成可以产业化落地的东西。

不过,真正的产业化落地不一定由研究院本身完成。研究院更像是预研和孵化平台,把技术做到一定程度之后,再通过孵化企业或赋能企业完成产业化。研究院本身不是商业载体,但它承担产学研融合和产业孵化的重要责任。

这也反映在团队构成上。一般学院以学术人才为主,而我们既有学术人才,也有来自产业研究院的人才。他们既有前沿学术研究能力,又有系统设计、系统实现和产品化能力。我们讲产学研融合,不是表面上的融合,而是真正的产研融合。

在架构上,我们还设计了一个三级结构:学校层面的研究院、面向上海的新型研发机构,以及后续孵化或赋能的企业。最终,我们希望从研究院走向产业,从基础能力走向平台化系统,再走向真正的企业和产业生态。

AI科技评论:您提到研究院要做的不是项目制,而是一套体系。放在更大的 AI 发展路径里,这套体系和您提出的“共生智能”之间是什么关系?

华先胜:我觉得可以这样理解:如果说传统 AI 落地更多强调“降本增效”,那么共生智能更强调“开智增能”。它不是简单用 AI 替代人工,而是让人与 AI 深度结合,用相同甚至更少的人力,完成更深入、更强大的创造。

我们要做的不是一个个孤立项目,而是把平台、模型、智能体、应用,以及未来的人机协同机制放在同一个体系里,让 AI 的能力和人的能力共同演进。

AI科技评论:如果更具体地看,研究院目前已经在做哪些方向和成果?

华先胜:如果从应用领域看,我们目前有土木建造、交通、海洋等方向。比如在建造领域,我们做的是从设计到设计评估,再到建成建筑的状态预测。

一个具体技术叫 BIM to FEA。BIM 是建筑信息模型,主要描述建筑的物理和几何结构。过去很多年,行业一直在使用 BIM;它比平面图更形象,有三维信息,可以看到建筑长什么样。但是,如果要拿 BIM 去评估建筑健康状况、风险,或者分析极端天气、地震对建筑的影响,它还不够,因为这些问题需要进入力学层面。

进入力学层面,就要分析建筑结构中的应力,还要考虑材料等因素。工程上通常通过有限元仿真完成。过去这件事基本靠手工:先有 BIM 模型,再手工构建 FEA 有限元模型,画网格,进行仿真,分析应力。只有把这些分析清楚,才能判断房子会不会有风险。

我们现在希望把这个过程自动化:从 BIM 直接生成力学仿真模型,自动完成网格划分,甚至在某些情况下不经过反复迭代就得到满足条件的仿真结果,并且自动生成分析报告。报告可以告诉设计方案是否存在问题,也可以用于运维阶段,判断一栋建筑应该如何修理、如何保护。

交通领域,我们在交通安全方面有比较好的进展。我们对城市全量交通事故进行深入分析,分析事故成因、责任归属、车辆行为、碰撞位置和各种细节。过去这些都需要人来分析。一个直接应用是帮助交警做事故定责,并且把分析结果与法律法规结合,辅助判断责任。

更大的应用在于,当我们掌握了城市历史交通事故的发生机理,就可以知道事故到底由哪些因素造成:哪些是人的原因,哪些是道路原因,哪些是交通规则原因。这样就可以对城市交通基础设施提出建议,比如哪些地方应该改造,哪些通行规则应该调整,从而降低事故发生概率。

我觉得更有意思的是从司机角度入手。交通事故往往是多种因素叠加造成的。即使道路拥堵、路况不好,如果一个人足够仔细,也可能避免事故。很多时候,是多个条件凑在一起才发生事故。因此我们可以从司机层面去破坏促成事故的因素。

人的驾驶习惯、当天心情、天气状况、交通状况、实时驾驶行为都会影响事故风险。在某种条件下,我们可以提前预测:某位司机今天走到某个地方时,发生事故的概率可能比平时高好几倍。这时就可以提醒他注意驾驶行为,甚至调整路线。过去没有大模型技术,这件事不太好做,但时至今日,这件事已经变得相对更容易了一些。

海洋方向,我们综合多源海洋数据和预测模型,对海洋情况进行分析和预测,例如海面温度变化趋势等,并构建相应的智能体。

还有一个很重要的点是:我们做的东西不是论文,也不是博士论文,而是一个可用系统。当然,今天说它已经是成熟产品还为时过早,但至少它是真正在跑的东西。有些能力要真正落地,还需要和外部系统连接。比如交通中对个人进行提醒,就需要和高德或其他 GPS 系统连接;要做全城市全量事故分析,则需要和城市大脑这类系统连接等等。

除了这些具体领域,我们还做了两个偏通用的能力。第一个是传统工程的全科工程智能体。它不是只面向土木、交通、能源或制造,而是把工程学科里的知识和能力放在一起。我们不是简单做一个大模型,而是做智能体,同时嵌入我们自己调优的模型、知识图谱,以及一些物理约束。

这个智能体主要用于交互式工程教学和研究探索。我们不希望它变成学生直接拿答案的工具,因此设计了启发式模式:学生不知道怎么做时,系统会一步步提醒他从哪里思考,避免直接抄答案。它也针对工程领域做了优化,能够处理全科问题,包括读图、图纸理解、计算、建模等。

第二个是偏科研场景的工具,用来辅助工程智能或人工智能科研。它可以自动追踪全球前沿研究进展和资讯,帮助研究者把握趋势。我们每天做分析,每个人可以有自己的订阅。订阅不是简单推送一条信息,而是拿到信息之后还可以继续和系统沟通:让它进一步总结,与其他论文或资讯关联,或者用不同文风解释。

对于管理者,它可以用通俗语言解释艰深论文;对于技术人员,它可以深入到技术细节。更重要的是,我们希望它不仅是信息工具,还能把人、模型和智能体的能力融合起来,实现互相激发:人激发智能体产生更多有创意的想法,智能体也反过来激发人的想法

这里面有一个我们正在做的新东西,叫“灵感计算”。

(研究院展览体验中心)


03


创造力的「下一维」

AI科技评论:灵感计算听起来很特别,我们该如何去理解这个概念?

华先胜:灵感本来看起来是不可计算的。如果能计算,为什么还叫灵感?但我们不是说所有灵感都能计算,而是想解决其中能够被计算的一部分。

比如,一个研究者要产生一个新方法来解决问题,首先会有上下文:可能是一篇论文、一条资讯,或者一个很粗浅的想法。其次,可以放入当前领域最前沿技术的一些关键词;再次,可以放入这个领域存在的各种问题。这些都可以成为不同维度。当然维度可以不止三个,理论上可以有很多维度。

这个想法其实来自我很多年前在北大听过的一堂课。那位老师讲了两个概念,一个叫“维论”,另一个叫“寻找新的自由度”。很多时候我们觉得没有路,是因为把自己限制在二维或三维空间里。换到另一个空间,增加一个维度,问题可能就很简单。

我以前在团队里讲研究方法时,也常说要寻找新的自由度。而灵感的产生,在某种意义上就是升维,或者是在已有维度中寻找没有被挖掘过的地方。

关键在于,如何创造这些维度,而一旦维度创造出来,空间就会变得很广阔。

这也和大模型的创新能力相关。今天大模型能画画、做视频、写诗,看起来有创新能力。但它为什么能创新?创新天花板在哪里?

我用文字来打个比方:第一类是已经存在的有意义文字,也就是人类已经写出来的文本;第二类是所有可能的、有意义的文字组合,它们现实中未必已经存在,但大模型可能生成出来;第三类是任意文字组合,其中很多并没有意义。

大模型今天能够创新的地方,主要是在第二类空间里:现实世界还不存在,但它确实是有意义的组合。它的天花板也在这里,因为它是从已知内容中学出来的。

如果存在一种文字组合,人类现在还不知道它是否有意义,大模型也很难真正判断。它可以随机产生,但无法保证体系性,也无法判断对错。它也无法从文言文直接创造出现代汉语这种语言演化。人类不同的地方在于,人类可以创造逐渐演变的新状态。

所以,灵感计算的思路是构建不同维度,在维度形成的空间里寻找还没有被探索的可能性。这只能解决一部分问题,但已经能大幅提升人的能力。

比如构建一个三维空间,每一维有 10 个向量,就可能产生 1000 个 idea。其中可能 100 个已经被人做过,800 个不靠谱,但剩下 100 个也许有价值。系统可以自动判断哪些已经被做过,哪些不太靠谱,剩下的就可能成为有意义的启发。

难点在于如何“造维”,也就是如何描述创新空间。我们不求完整描述,只要能描述其中一部分空间,就有价值。

AI科技评论:这样看,灵感计算其实不是为了让 AI 独自完成创新,而是为了让人和 AI 互相激发?

华先胜:是的。AI 的超强能力需要和人类独特的非逻辑创造力结合,才能突破自身能力的天花板。一个好的共生智能系统,不是把答案直接交给人,而是把人推到更高价值的创造环节上。它可以完成大量繁重的信息搜集、比对、推理和生成工作,让人把精力集中在决定性、创造性的部分。

比如教育场景里,如果一个 AI 只是帮助孩子更快刷题、拿到标准答案,它可能把孩子训练成应试高手,却未必能让孩子爱上学习,更难让他成为提出问题的人。但如果 AI 像一位特级教师,引导孩子在学习引力时亲手拖动虚拟行星,再追问“如果引力规则完全不同,会发生什么”,它就可能点燃孩子的好奇心。

科研也是如此。前几年,DeepMind 和牛津大学数学家合作,把 AI 引入拓扑学研究。AI 分析大量被称为“纽结”的复杂拓扑对象,在代数和几何表征之间发现了新的关联模式;人类数学家再把这个模式提炼、理解并完成证明。这个例子说明,AI 可以发现人类难以穷尽搜索的模式,但最终的理解、判断和理论化,仍然需要人的智慧。

灵感计算想做的,就是把这种“互相激发”变得更系统、更可规模化。通过构建不同维度、探索没有被走过的组合空间,智能体可以不断向人提出可能性,而人则用自己的经验、直觉和非逻辑创造力,去判断哪些可能性真正有价值。

(华先胜院长讲共生智能)


04


在碎片世界里建立秩序

AI科技评论:工程项目往往很碎片化,不同城市、不同场景差异很大,那么工程智能如何提炼共性,实现规模化复制?

华先胜:这正是为什么要打造工程智能操作系统。我们把工程智能中的核心问题总结为几个层面。第一个问题是建模:怎样用相对统一的方式把一个工程问题建模?工程问题非常复杂,数据量和数据模态都很多,有时间数据、空间数据、图纸、文本、视觉信息、时间序列等。工程领域首先需要一套相对统一的建模机制,能够处理这些异构数据。

这里有两类问题。一类是能够建模的数据,我们尽量通过统一方法建模;另一类是很难放进统一模型的数据,就作为外部数据来使用。有些数据语义不强,数据量又不多,很难 token 化,硬放进统一模型反而没有用。这类数据可以作为上下文,或者作为外部数据,由模型通过另一层能力读取和操作。

工程领域还会涉及物理规律和各种约束,比如成本约束、时间约束、安全性约束等。这些都会比较复杂。我们会把它们抽象成基础能力,但进入具体领域时,还要针对该领域优化和调优。

不能指望一个大一统模型解决所有工程问题,语言模型也许可以某种程度上统一很多语言任务,但工程世界很难这样。因此,我们会有基础框架、基础模型,也会在每个领域进行针对性优化。

这就是工程世界模型,它不是通常意义上只关注三维空间的世界模型,而是要刻画工程场景中的复杂问题,包括设备数据、建筑、机械以及它们之间的关系。刻画之后,还要进行推理,包括优化、预测、仿真等。这个过程不容易,但我们要用相对统一的方法逐步往前走。

AI科技评论:如果把这些能力合在一起,工程智能操作系统的技术架构是什么?

华先胜:我们可以把它概括为三层,或者说三个基础研究维度。第一层是工程世界模型。它解决的是可信建模和可信推理:如何准确刻画工程世界,如何在模型之上进行优化、预测、仿真。

第二层是多人多智能体协同系统,也可以叫工程共创的多人多智能体体系。到了这一层,问题不只是模型能不能刻画世界,还包括任务能不能被可靠执行,智能体之间能不能协作,智能体和人之间能不能协同。我们提出四个关键词:可信建模、可信推理、可信执行、可信协同。前两个偏模型层,后两个偏任务执行和协同层。

现在业界非常关注智能体执行框架和 harness,本质上是因为大模型不可靠。怎样在真正完成任务时,让它安全、可靠、可控?工程智能对这一点要求更高,因为工程场景不能简单试错重来,它有更多约束,对可靠性、可解释性和安全性的要求也更高。

第三层是人机互信,这是我们很重要的创新。早期它还是一个概念,后来我们希望把它变成可计算的东西。未来社会生产和生活可能是人机融合的:你的同事、同伴可能是人,也可能是智能体。人和人之间、人和机器之间、机器和机器之间,都需要信任。只有互相信任,协同效率才会高。

但这件事不能停留在理念层面,我们要把信任变成系统中可以计算、可以演化的变量。系统运行的目标之一,是让信任度随着协同不断提升。信任度提升后,工程世界模型对世界的刻画能力会更强,多人多智能体系统完成任务的质量和效率也会更高。

也就是说,人机互信成为系统演进中的一个约束和优化目标。我们也定义了信任如何度量、如何演化,并把它称为信任的动力学方程。

过去,信任更多是管理学或心理学概念。我们希望把它变成可计算概念,与模型精度优化、任务完成能力优化并列,成为系统优化的一部分。这样,模型与模型之间、人和模型之间、人和人之间协同更可信,整个系统运行的效率和可靠性也更高。

这也和我提出的“共生智能”有关。我去年在一个报告里提出这个概念,并在此基础上写了一本书,暂名叫《共生智能:人工智能的下一代》。它有技术哲学,也有系统架构。它不是只讲理念,因为里面的很多东西可以一行一行写成代码,落成系统。

对此我的一个观点是:要让最好的选择成为唯一的选择。也就是说,当我们设计出一个足够好的、人机协同、共生共创的系统,大家自然会选择它。

所以,工程智能操作系统可以由三个基础部分构成:工程世界模型、工程共创的多人多智能体体系,以及人机互信优化。三者合在一起,才构成真正意义上的工程智能操作系统。

而从实现工程智能的技术路径上讲的,共生智能并不是一个抽象口号。未来可以有“共生智能大模型”:它不只是知识问答机,而是在模型和智能体的设计中融入人类长期积累的创新理论和方法,使模型具备一定的“灵感激活能力”。

智能体则像总指挥,负责规划和执行复杂任务。更重要的是,它要能识别逻辑和计算的尽头:当模型靠自身计算无法继续突破时,它就应该主动转向人类伙伴,开启高质量的创造性对话。

如果这个智能体还有长期记忆,能够记住与人的每一次互动,理解人的能力结构、兴趣、偏好和思考方式,那么它就不再只是一次性工具,而会逐渐成为与人共同进化的伙伴。人、模型和系统之间的能力,也会形成螺旋式上升的闭环。

(研究院回廊展厅)


05


人机共事,才是下一站

AI科技评论:如果工程智能既有技术、又有信任、还能协同,它会不会取代工程师?

华先胜:我觉得更大的可能不是取代这个职业,而是取代这个职业中的大量人力。可以用一个非常简化的例子来讲:如果工作量是 100,过去可能需要 100 个工程师完成,未来可能 10 个工程师加一批智能体就可以完成,甚至 5 个工程师加一批智能体就可以完成。这是工作量固定时的情况。

换一个角度,如果仍然有 100 个工程师,但他们带着 1000 个智能体,就不是完成 100 的工作量,而可能完成 1000 甚至 10000 的工作量。所以,它不一定取代工程师这个职业,但会改变这个职业中的人力结构和工作方式。

AI 完全取代一个职业,我认为很难,因为大模型的本质是概率预测。我们说它在生成,其实它是在预测。为什么有幻觉?为什么有时候不听话,甚至违反人的某些指令?因为它是概率模型,它根据上下文认为那是最好的结果。它不像人一样有 common sense,它不是不想听话,而是它并不知道自己是否违反了什么。

完全替代人是不现实的。人可以在系统里发挥重要作用,尤其是创新部分。刚才讲灵感计算时也提到,大模型创新有天花板。即使它通过随机方式跳过某些限制,也很难判断那个东西到底对还是错。人有很大的灵活性,也有非逻辑的部分。今天所有 AI 都基于计算,本质上基于逻辑,而人可以超越这部分。

因此,我们设计系统时,会考虑如何充分发挥人的能力,让人在未来有位置。工程智能不是简单取代人,而是让人机共创成为一种新的范式。它会让会使用 AI 的工程师拥有更强能力,也会让不会使用 AI、不能用 AI 赋能自己的人被淘汰。

所以,我更愿意说:AI 不只是帮你完成任务的工具,也应该成为让你自己进步的工具。

从这个意义上说,工程智能真正要避免的是把人挤出系统。一个共生智能系统的目标,不是让人不再思考,而是让人的思考进入更高层次。它会让 AI 承担大量低价值、重复性、计算性的工作,同时不断把人拉回到判断、创造、责任和价值选择的位置。

我觉得,未来最好的 AI 系统,不是让人越来越依赖它,而是让人因为使用它而变得更强。它不是只给你一个答案,而是让你在和它共同完成任务的过程中,逐渐拥有更强的洞察力、判断力和创造力。

AI科技评论:展望 5 年后,您认为中国工程智能会达到什么水平?

华先胜:前面描绘的很多东西,可能到那时会逐步成为现实。首先,工程领域里一些核心难点问题,会通过与人工智能的深度融合得到相当程度的解决。比如开放复杂巨系统中的很多问题,今天还没有解,这也是人工智能难以规模化落地的重要原因之一。过去很多 AI 落地没有进入产业核心,只是在外围做了一些事情。

我经常举一个例子:智慧校园如果只是做通行、安防、消防,重要吗?当然重要,但它并没有进入学校的核心。中小学的核心是教育和教学,大学还有科研。只有 AI 进入教学和科研,才真正进入学校核心。

工厂也是一样,如果只做通行、安全检查、有没有人违反安全规定,也不能说不重要,但如果没有进入生产、设计、营销等环节,就没有进入核心。工程智能必须进入工程和产业的核心问题。未来几年,这件事会得到比较好的解决。

第二,工程智能体会全面渗透。当然,“全面”怎么定义还需要讨论,但渗透面一定会很广。工程全生命周期中的策划、设计、施工、运维、运营等阶段,都会出现专业智能体。智能体和人类工程师一起工作,会成为司空见惯的事情。

这背后是人机协同范式的常态化。在大型工程、大城市治理、制造等领域,专业智能体会和专业工程师一起完成任务。我们正在做的人机共创协同平台,或者人机共生共创平台,本质上就是为了这个场景。

智能体和人有不同特点。智能体可以 24 小时工作,只要有 token budget,就可以持续做调研、实验、各种可能性探索。人类则更多贡献 out of the box 的想法,或者非逻辑的创新。

不同智能体也可以扮演不同角色,有的偏创新,有的偏质疑,总是提出不同意见。未来,人还可以把自己的经验和思维习惯培养进智能体,甚至培养自己的 N 个分身。

不过,工程领域有很多核心能力不是今天一个模型就能解决的。体系本身可能很快跑起来,但真正面向工程核心问题的能力,需要深入到具体领域里,一点点构建。

我也希望,通过基础能力、平台化方式和系统构件,中国能够在工程智能技术方面走在世界前沿,甚至形成引领。

更长远地看,AI 带来的挑战不只是效率问题,也不只是生产力问题,而是人在智能系统中的位置问题。如果技术只制造一个无挑战、无摩擦的舒适区,人可能会在极度便利中失去目标。共生智能的意义,是为人类提供持续探索的前沿,以及值得尊敬、能够共同成长的智能伙伴。

我希望未来的 AI,不只是机器越来越像人,而是人与机器能够一起持续成长。工程智能,以及作为工程智能规模化实现形式的共生智能,最终要回答的,都是同一个问题:如何让技术真正以人为本,不是靠说教,而是靠更好的系统设计,让最好的选择成为唯一的选择。

]]> 人工智能 https://www.leiphone.com/category/ai/Jt2rH6KG5KI3dbXX.html#comments Thu, 21 May 2026 11:36:00 +0800 复旦可信具身智能研究院&上海交大:给自动驾驶装上可检索的「空间记忆」丨CVPR 2026 https://www.leiphone.com/category/ai/lBfDuOrZbIkFXyzW.html 从街景到仿真,离线地理信息正在成为车辆理解复杂道路的新线索。

    作者丨郑佳美

    编辑丨马晓宁

                                                                                                               

大模型的发展表明,智能体不能只依赖一次性的上下文输入,还需要能够检索、利用和管理长期记忆自动驾驶也正在走向类似的路径:车辆不应只是根据当前摄像头和传感器看到的内容做即时判断,而应具备一种可检索的空间记忆,能够调取当前位置长期积累的道路结构信息。对于自动驾驶来说,这种记忆可以来自街景图、卫星图、历史地图和车队经验,从而当传感器“看不清、看不全、看不远”时,车辆仍然能理解自己所在的道路空间。

在真实道路上,这类问题几乎无处不在。夜间经过一个没有路灯的路口,摄像头里车道线被阴影吞没,雨天行驶在城区主干道,玻璃反光和水雾让路沿、人行横道变得模糊,驶入复杂立交或多岔路口时,车端传感器看到的只是当前一小段画面,却需要对完整道路结构做出判断。

人类司机在这种情况下,往往不会只依赖眼前一帧画面。我们会调动对道路的记忆:这里原本有几条车道,路口在哪里分叉,人行横道大概在什么位置,前方是不是高架匝道。

也就是说,人类驾驶天然具备一种“空间记忆”。但长期以来,自动驾驶模型大多仍被限制在实时传感器输入之内,车辆只能根据当前摄像头、激光雷达或 IMU 看到的信息进行判断。一旦遇到遮挡、低光、雨雾和长尾场景,模型就容易失去稳定的空间参考。

正是在这一背景下,由复旦大学可信具身智能研究院&上海交大团队提出了论文《Spatial Retrieval Augmented Autonomous Driving》。这项工作的关键思路不是再给车辆增加一种昂贵传感器,而是让自动驾驶系统学会“回忆”当前位置的地理信息:根据车辆 GPS 和位姿,检索对应位置的街景图、卫星图等历史地理图像,再将这些 Geo 信息与车载相机特征融合,为模型提供额外的道路结构参考。

更重要的是,这篇论文并没有把 Geo 图像包装成万能答案。研究结果反而清楚地表明:地理图像最擅长补充的是稳定、长期存在的道路结构信息,例如车道线、道路边界、人行道、建筑和可行驶区域,而对于车辆、行人等实时变化的动态目标,它的帮助十分有限。

这一结论让这项研究的意义更加明确——Geo 不是要替代实时感知,而是要成为自动驾驶系统中的一种空间先验,让车辆在看不清当前世界时,仍然能够参考“这条路原本是什么样子”。

因此,这项工作真正打开的不是某个单一指标的提升,而是一种新的自动驾驶范式:从“只依赖当前传感器”走向“实时感知 + 历史地理记忆”。在自动驾驶进入长尾场景、安全冗余和世界模型竞争的新阶段后,这种检索增强式思路,可能会成为下一代自动驾驶系统理解道路空间的重要补充。

论文地址:https://arxiv.org/pdf/2512.06865

01


Geo 的适用边界

整体来看,研究团队发现不同任务对地理图像的受益程度差异明显。静态道路结构相关任务提升较大,比如在线建图、占用预测和世界模型,而动态目标相关任务提升较小,例如 3D 目标检测。

研究人员认为,这是因为地理图像能够提供道路、车道、人行道和建筑等稳定背景信息,但无法反映当前时刻道路上的车辆和行人等动态目标,因此它更适合作为空间结构参考。

在线建图是提升最明显的任务。因为这类任务主要识别车道线、道路边界和人行横道等静态元素,所以 Geo 图像能够有效补充道路结构信息。

研究中,MapTR 的 mAP 从 50.3 提升到 61.2,MapTRv2 的 mAP 从 61.5 提升到 73.4。研究人员发现,在低曝光、雨天和遮挡场景下,加入 Geo 后模型能够恢复更多道路细节,说明地理图像相当于为模型提供了当前位置原本的道路结构参考。

占用预测同样获得提升,但幅度没有在线建图那么明显。Geo 的作用主要集中在可行驶区域、人行道和地形等静态区域。实验中,FBOcc 的整体 mIoU 从 39.11 提升到 39.74,其中可行驶区域从 80.07 提升到 82.47。研究人员认为,这说明 Geo 更适合帮助模型理解道路空间结构,而不是实时动态物体信息。

相比之下,目标检测提升非常有限。BEVFormer 的 mAP 仅从 41.60 提升到 41.64。研究团队指出,目标检测主要关注当前车辆和行人,而 Geo 图像属于离线地图或街景信息,无法反映实时动态场景,因此帮助较小。雷峰网

端到端规划中,Geo 对轨迹误差影响不大,但能够提升安全性。实验结果显示,Night 场景下碰撞率从 0.55% 降到 0.48%。研究人员认为,这说明 Geo 不一定让轨迹预测更接近真实轨迹,但在夜间、雨雾和复杂路口等低能见度环境中,能够提供更稳定的道路参考,从而降低碰撞风险。

世界模型也是受益较明显的任务。研究人员发现,长时间生成驾驶视频时,模型容易出现道路漂移和背景不一致问题,而 Geo 图像能够提供真实道路结构约束。实验中,UVG 的 FVD 从 36.10 降到 29.97,说明生成结果更加稳定,幻觉现象也更少。

最后,消融实验进一步验证了方法有效性。没有 Geo 时,静态 mIoU 为 46.66,加入 Geo 后提升到 47.86。研究团队认为,这说明性能提升并不是偶然结果,Geo 图像、位置编码以及可靠性估计模块都对整体性能提升起到了重要作用。

02


从地理检索到可靠融合

研究团队首先基于 nuScenes 构建了一个新的扩展数据集 nuScenes-Geography,希望让自动驾驶模型除了使用车载摄像头信息外,还能够利用当前位置对应的地理图像信息。

研究人员先根据 nuScenes 中提供的车辆位姿数据,计算每一帧对应的经纬度坐标,再通过 Google Maps API 获取对应位置的街景图和卫星图。得到地理图像后,研究人员进一步将这些图像与车载相机画面进行空间对齐,使模型能够同时看到“当前车载视角”和“当前位置对应的历史地理视角”。

实验结果显示,train split 中可用地理图像占 94.32%,val split 中占 92.41%,说明大部分场景都能够成功获取 Geo 信息,数据覆盖率较高,实验并不是只在少量理想样本中进行。

在构建数据集过程中,研究团队发现街景图并不是按车辆每一帧单独采集的,很多连续车载帧实际上会对应同一个街景位置。如果按照每一帧单独下载街景图,不仅会产生大量重复数据,也会造成很高的存储和计算成本。

因此研究人员没有采用逐帧下载方式,而是让每个街景位置只下载一次数据。为了尽可能覆盖不同方向的视角,研究团队会在同一个街景位置下载 18 个不同方向的街景视角,并将这些视角合成为全景图。

之后,系统再根据当前车载相机的方向、位置和视角参数,从全景图中重新投影得到与当前驾驶视角更接近的 Geo 图像。研究结果显示,这种方法相比逐帧下载街景裁剪图节省超过 70% 的存储空间,同时还能减少重复数据,提高系统实际部署时的可行性。

研究人员还发现,Geo 图像并不一定始终可靠。现实场景中可能出现街景缺失、街景数据过时、GPS 定位误差、高架道路与地面道路混淆以及道路施工导致环境变化等问题。例如,街景图可能拍摄于数月甚至数年前,而当前道路结构已经发生变化。如果模型完全依赖这些 Geo 信息,就可能出现错误判断。

因此研究团队专门设计了可靠性估计模块 REG,用来判断当前检索到的 Geo 图像是否可信。研究人员会同时考虑 Geo 图像与当前车载图像之间的视觉相似性,以及地理位置之间的匹配程度,从而决定模型应该多大程度使用 Geo 信息。

为了训练这个模块,研究团队人工标注了 1800 个错位样本。实验中,train split 的错位图像占 4.93%,缺失图像占 0.75%,val split 的错位图像占 6.88%,缺失图像占 0.71%。这些结果说明研究并没有默认 Geo 永远正确,而是让模型在 Geo 信息可信时增强使用,在 Geo 不可靠时降低影响,从而提高整体系统稳定性。雷峰网

完成数据处理后,研究团队开始把 Geo 接入不同自动驾驶任务中进行验证。对于车端任务,研究人员首先从车载图像中提取 BEV 特征,再把检索到的 Geo 图像编码成另一组特征,随后通过适配模块将两种特征融合到同一个空间表示中。

研究团队希望让模型不仅能够利用当前传感器看到的信息,还能够利用当前位置对应的历史道路结构信息。研究覆盖了多个任务,包括 3D 目标检测、在线建图、占用预测以及端到端规划。对于世界模型任务,研究人员采用了不同策略。

由于世界模型需要生成未来驾驶视频,因此系统会根据未来轨迹提前检索对应位置的地理图像,再利用这些 Geo 信息约束未来场景生成过程。研究团队希望通过这种方式减少长时间视频生成中的道路漂移、背景变化和场景幻觉问题。

整个实验流程的核心目标,是验证 Geo 是否能够成为自动驾驶系统中的一种“空间记忆”。研究团队并不是只想证明某一个模型在指标上略有提升,而是希望说明自动驾驶模型除了依赖当前传感器外,还能够通过检索当前位置的历史地理图像获得额外空间参考信息。

因此,研究人员把 Geo 接入多个不同任务和模型中,希望验证这种方法是否具备通用性,以及它究竟更适合哪些类型的自动驾驶任务。

03


从感知增强到仿真约束 Geo

研究团队最重要的贡献,并不只是提升了几个实验指标,而是提出了一种新的自动驾驶思路。过去的自动驾驶系统主要依赖实时传感器输入,也就是车辆只能根据“当前看到的内容”进行判断,而这项研究证明,自动驾驶还可以主动检索当前位置对应的历史地理图像,从而获得一种类似“空间记忆”的能力。这意味着自动驾驶模型开始从单纯的实时感知,转向“实时感知 + 历史空间记忆”结合的方式。

研究团队认为,这项研究真正的重要性,在于打开了“检索增强自动驾驶”这一新方向。过去自动驾驶研究更多关注传感器、模型结构和端到端学习,而这项研究开始尝试把外部地理信息引入自动驾驶系统。

未来还可以继续扩展,例如利用车队历史数据替代公开地图,或者同时检索多个附近视角,从而进一步提升自动驾驶系统的空间理解能力。

04


成果背后的科研团队

贾萧松,复旦大学可信具身智能研究院助理教授,研究院是复旦面向下一代人工智能设立的校级实体化科研机构,重点研究 AI 如何从数字空间走向物理世界。它不只关注具身智能体“能不能感知、能不能行动”,也关注它们在真实环境中是否安全、可靠、可控。研究院围绕具身基础模型、数据引擎、具身交互、本体研制和可信机制五大方向展开布局,试图打通从模型、数据、硬件到安全评估的全链条,为工业生产、智能制造等场景提供底层技术支撑。

官网主页:https://teai.fudan.edu.cn/

贾萧松本博毕业于上海交通大学,导师为严骏驰教授,其研究主要围绕自动驾驶与具身智能展开,覆盖端到端自动驾驶、闭环评测、世界模型、强化学习、轨迹预测、多传感器融合等方向,同时也关注利用生成式模型和重建式模型构建更真实的世界模拟器,并结合模仿学习与强化学习训练端到端决策智能体。在学术成果方面,他已在 IEEE TPAMI、IJCV、RSS、CVPR、ICCV、ECCV、NeurIPS、ICLR 等国际顶级会议和期刊发表论文 40余篇,其参与研究曾获得 ICCV 2021 Mair2 Workshop 最佳学生论文奖和 CVPR 2023 最佳论文奖,另有研究成果获得 2025年 Waymo 仿真智能体世界模型挑战赛冠军。谷歌学术引用 4000 余次。此外,他还担任 NeurIPS与ICLR的Area Chair和TPAMI、TRO等期刊的审稿人。

参考链接:https://jiaxiaosong1002.github.io/

这次去 CVPR 现场,一定不要错过

【认识大牛+赚外快】的机会

需要你做什么:把你最关注的10个大会报告,每页PPT都拍下来

你能获得什么?

认识大牛:你将可以进入CVPR名师博士社群;

钱多活少:提供丰厚奖金,任务量精简;

听会自由:你的行程你做主,顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。

如果你即将前往CVPR,想边听会边赚钱,还能顺便为AI学术社区做贡献、认识更多大牛,欢迎联系我们:[添加微信号:MS_Yahei]

限额5位,先到先得

]]> 人工智能 https://www.leiphone.com/category/ai/lBfDuOrZbIkFXyzW.html#comments Thu, 21 May 2026 11:29:00 +0800 万字长谈丨同济工智院华先胜:工程智能,是 AI 的「成人礼」 https://www.leiphone.com/category/ai/f9CouXj2jwFifQXy.html

今天的 AI 已经足够耀眼。它能在几秒钟内写出文章、生成代码、绘制图像,也能像助手一样拆解任务、调用工具、给出方案。对很多人来说,AI 的未来似乎已经清晰可见:更高效率、更低成本、更少人力,以及越来越自动化的生产流程。

但同济大学工程智能研究院的华先胜院长看到的则是另一面。

在他看来,AI 真正的挑战不在于能不能“说得像人”,而在于能不能进入那些不能靠语言流畅度解决的真实系统。工程世界就是这样的系统,它关乎楼宇是否安全、桥梁是否可靠、交通是否顺畅、能源能否稳定调度、城市能否持续运行。

这里没有简单的标准答案,也不能用幻觉冒充创造力。一个 AI 模型即使能写出完美方案,也不意味着它理解了工程现场。

所以,工程智能要回答的第一个问题是:AI 如何从数字世界走向物理世界?

华院长认为,工程智能不是 AI 与工程的简单相加,它既要用已有 AI 技术解决工程问题,也要从复杂工程系统中倒逼新的 AI 理论和方法,更要把这些能力沉淀为平台、模型、智能体和操作系统,让工程智能从单点突破走向规模化复制。

这也是他从微软、阿里、城市大脑一路走到同济工程智能研究院后形成的判断:AI 落地不能只靠“拿着锤子找钉子”,也不能只靠一个个项目堆起来。真正的工程智能,必须长在产业现场,也必须长成一套体系。

而更深层的是,华先胜并没有把工程智能仅仅看成产业效率工具。他同时追问了另一个更难的问题:当 AI 越来越强,人会不会被系统边缘化?

如果 AI 只沿着替代人的方向发展,它可能带来岗位替代、认知退化和精神操控。但如果换一条路,让 AI 成为人的共创伙伴,让模型/智能体的能力和人类的非逻辑创造力彼此激发,AI 就不再只是“完美机器”,而可能成为一种共生智能。

于是,工程智能在这里获得了双重含义:一方面,它是 AI 进入复杂工程系统的技术路径;另一方面,它也是重新设计人机关系的一次尝试。

基于这些判断,雷峰网与华院长进行了一次系统对话。对话从“工程智能究竟是什么”开始,一路延伸到复杂工程系统、产业规模化落地、工程智能操作系统、灵感计算、人机互信,以及 AI 时代人的位置。

某种意义上,这不仅是一场关于工程智能的访谈,也是一场关于 AI 未来路径的再追问。


01

工程,是 AI 的试金石

雷峰网:工程智能对很多人来说还是一个比较新的词。您能否先解释一下,它到底在解决什么问题?

华先胜:要解释工程智能,首先要讲清楚“工程”在这里指什么。今天很多人讲工程,尤其是做计算机的人讲工程,更多想到的是 software engineering,也就是软件工程。但我们讲工程智能时,“工程”至少有两层含义。

第一层是传统工程,也就是推动人类社会进步和发展的那些基础设施与产业系统。比如建造房子、楼宇、桥梁,属于建造;制造本身也是非常大的范围;交通是交通工程,能源有能源工程,材料、医学、海洋等领域里也都有工程问题。

如果稍微收窄一点,可以理解为传统工科所关注的工程问题,包括建造、制造、能源、汽车、交通、海洋等。很多时候,科学和工程之间的边界并不只是看题目本身,而是看推动这个领域发展的方式。比较偏工程方法的,都可以归入工程范畴。

第二层则更接近过去讲的软件工程,但我们不简单称之为软件工程,而是称为“硅基工程”。人工智能要真正实现产业规模化落地,也需要工程能力。

也就是说,当我们用 AI 方法解决了传统工程中的难点问题之后,怎样让它走向规模化?这就需要构建系统、平台和工具,让更多人能够使用,而不是每一个工程问题都必须由顶尖 AI 专家和顶尖工程专家坐在一起才能解决。这个世界上的工程问题太多了,如果都只能依靠少数顶尖专家一对一解决,就很难形成规模化。

所以,工程智能可以有一个比较正式的定义:人工智能与工程实践的深度融合,利用人工智能技术深入解决工程领域的核心问题,实现对工程实践规模化赋能的变革性技术范式。

不过这个定义比较书面,我更愿意从三个层次来解释。

第一层叫“工程 + 智能”。也就是用今天相对成熟的人工智能技术去解决传统工程中的具体问题。例如,在建造领域,设计一栋楼、一座桥时,能不能用 AI 辅助设计,让设计速度更快、方案更合理、更有创意?一栋楼已经建成之后,能不能用 AI 对楼宇健康状况进行预测?在交通领域,能不能用 AI 提升城市交通效率和交通安全?这些都属于工程 + 智能。

它当然也是工程智能的一部分,但还不是最核心的部分。因为这一层往往不一定会对人工智能本身提出非常高的新要求,更多是在已有技术基础上做一些增量创新,解决某个具体领域问题。

第二层才是真正作为一个词的“工程智能”。它不是工程和智能的简单相加,而是因为传统工程领域中存在大量今天技术难以直接解决的问题。

工程系统往往非常复杂,比如建一座桥、优化一座城市的交通、调度一个城市的能源或电力系统,这些都是复杂系统。今天的 AI 技术还不能直接解决这些核心问题,于是它反过来会给人工智能提出新的理论和方法要求。

我们发展新的 AI 理论与方法去解决这些工程问题,一方面推动工程学科和工程技术的发展,另一方面也推动人工智能技术本身的发展。到这个阶段,它就成为一个新的领域,放在学校里讲,也可以说是一个新的学科。

第三层是工程智能操作系统。我们希望把那些看起来高大上的技术,变成大家都能使用的工具。就像今天我们用 Windows、Office、PowerPoint,不需要微软工程师和我们一起写文档、做幻灯片;医生用 CT 做诊断,也不需要理解 CT 机内部如何成像、如何重建,只要会使用设备,就能做诊断、制定治疗方案。工程智能也要走到这个阶段,才能真正被规模化使用。

这三个层次不是先后割裂的。我们现在同时在做三件事:第一,用现有技术去看工程问题;第二,针对工程里的难点问题发展新的方法;第三,从现在开始构建平台系统,今天能解决多少问题,就把多少能力放进系统里。系统变成开放系统之后,更多人也可以一起贡献。

我还经常用“点、线、面”来解释工程智能。点,是解决某一个具体问题。比如某一个蛋白质结构预测,或者某一个作物的育种问题,都是点。线,是能解决一类问题,例如不仅能做大豆育种,也能做水稻、玉米等作物育种,形成一个加速育种的平台。面,或者体,是在一个领域里能解决一组相互关联的问题,比如农业里不仅做育种,还能做精准种植、农业机械化、加工等。

如果只做点,很难形成一个领域或学科;至少做到线,才可能成为一个领域,成为一个平台,成为一种赋能工具。我们的目标是从点到线,再到面。当然,从点到线相对容易,走到面需要很多年的积累。

(2025年5月20日同济大学工程智能研究院成立)

雷峰网:您过去做过城市大脑、视觉智能,也做过 AI 的平台化和系统化。现在推动工程智能,背后的判断是什么?为什么是现在?

华先胜:过去其实也在做,只是还没有那么成体系。今天把工程智能这件事提出来,是因为技术和产业发展到了一个可以更深入、更大规模推进的阶段。

第一个维度是工程本身的需要。工程非常重要,真正改变世界的很多东西其实是工程。当然,工程很多时候来自科学突破,科学理论再进入工程应用,推动人类改造和适应世界。

城市建设、大陆桥梁、飞机、大型水电站、大型建筑,本质上都是工程。中国本身也是工程大国,但今天的工程系统越来越复杂。大型水电站、飞机制造、大型建筑等系统一旦出问题,很多时候是灾难性的,因此迫切需要新的方法来保证可靠性和安全性。

我们过去一段时间做了很多探索,后来发现这和钱学森先生当年讲的“开放复杂巨系统”非常相关。

工程里的很多系统本质上就是开放复杂巨系统:组件非常多,耦合度非常高,相互依赖非常强;同时它不是封闭系统,而是在不断演进,并且与外部环境持续交互。比如电站会受到环境变化、水流变化、能量输入输出的影响;城市交通更是一个不断变化的开放系统。

这类系统还有涌现性。涌现就是从量变到质变,很多规律不是用以往方法能轻易计算出来的。今天大模型也有涌现,但老实说,背后的机制也还没有真正弄明白。

复杂工程系统也是这样:难以建模,模型建不好,就更谈不上推演、预测和优化。因此,工程需要人工智能去辅助、去赋能。

第二个维度是人工智能本身的需要。人工智能从深度学习时代发展到 2022 年底之后的大模型、智能体时代,速度非常快,威力也非常强。但它在数字世界里很强,在物理世界里仍然步履维艰。

今天机器人可以打拳、扭秧歌、跳舞,甚至可以跑马拉松,但你让它真正完成一个任务,哪怕不是特别复杂的任务,也并不容易。让它照顾老人、照顾小孩,或者到大街上帮你取一个东西回来,这些都没有那么容易。更不用说真正的工程场景。

如果人工智能要真正成为改变产业的生产力,就不能只成为数字世界的生产力,还要进入物理世界。我们说人工智能是新质生产力,但它只有被规模化使用,才会真正成为现实的生产力。

工业革命也是一样,如果一项技术只停留在少数领域、样板领域,就不会推动产业革命。人工智能接下来除了数字世界,还要进入物理世界;除了样板,还要走向真正的规模化。

第三个维度是技术已经具备了基础。大模型、智能体、物联网、算力,以及过去十几年产业数据化的实践,虽然有成功也有教训,但都为规模化工程智能提供了必要基础。

产业界、政府和社会对人工智能的接受度也比过去高,尤其在中国,大家更愿意尝试。过去十几年,AI 落地往往只解决了一部分核心问题,很多产业核心问题其实没有真正解决,这也是难以规模化的重要原因。

此外还有国际竞争格局。很多人把一些国际计划理解为偏科学智能,但仔细看,其中也包含制造等工程内容。贝索斯较早提出 Physical AI,要投入巨额资金做这件事。

本质上,这也是工程智能的一部分,只是他更多讲制造,我们讲的范围更广。他的做法可能是把传统产业买下来直接改造,而我们更希望提供平台和工具,让产业自己在工具上完成改变。

雷峰网:您刚才提到,人工智能要从数字世界进入物理世界,真正成为现实生产力。但如果 AI 越来越强,会不会也带来新的风险?比如工作被替代、人的能力退化,甚至被算法操控?

华先胜:这是一个必须正视的问题。我们在全速拥抱 AI 的同时,也要看到它发展路径里存在几重暗礁。

第一重是生存的替代。大模型和智能体已经开始改变岗位结构,特别是初级岗位、重复性岗位,受到的冲击会更明显。第二重是认知的退化。如果一个人习惯把思考、写作、判断都外包给 AI,大脑就会越来越少经历真正的训练。第三重是精神层面的操控。算法比你更了解你的喜好和弱点,它可以不断投喂你想看的东西,让人困在信息茧房里。

所以,问题不只是 AI 技术本身有多强,而是我们到底沿着什么路线发展 AI。如果我们追求的是一个“完美机器”,让它在越来越多场景中 100% 替代人,人就会被逐渐边缘化。它看起来提高了效率,但也可能带来岗位、认知和精神层面的长期风险。

我更关心的,是能不能用技术去解决技术带来的问题。也就是说,不只是靠伦理提醒、靠使用者自律,而是在系统设计之初就避免走向单纯替代人的路径。工程智能要进入物理世界、进入产业核心,就更不能只是做一个替代人的机器,而应该成为激发人类智慧和能力的合作伙伴。


02

工程智能,必须长在产业现场

雷峰网:您经历过淘宝以图搜图这类超大规模 to C 场景,也经历过城市大脑这类 to B、to G 的复杂系统级 AI 工程。站在今天回看,这些经历让您对 AI 进入工程世界有了哪些不同判断?

华先胜:人工智能领域有很多了不起的团队和人才,他们推动了技术和应用的发展。但如果要把“从技术到产业”这条路真正走通,需要一种综合能力:既要有算法研究能力,对算法原理有深入理解;也要有工程化能力,能够把技术转化为稳定可靠的系统和产品;同时还需要围绕真实业务和应用场景,持续打磨系统架构、产品体验和商业落地路径。

算法、系统、产品、产业落地之间不是一条简单的线,而是高度耦合的关系。过去很多讨论是在说,到底是锤子找钉子,还是钉子找锤子:是先有算法再找场景,还是先有需求再找算法。

经过这些年的经历,我现在想做的事情不是判断到底谁找谁,而是让所有钉子都能有合适的锤子,所有锤子都能找到合适的钉子。更准确地说,是构建一个更大范围的架构,让“找”的问题不再成为问题

如果总在纠结先做技术还是先找需求,就会一直停留在原来的问题里。我的想法是,把大的构想和系统架构设计出来,锤子和钉子都在里面,就可以直接用。

工程智能之所以强调认知,是因为认知会决定做法。为什么要区分“工程 + 智能”和“工程智能”?为什么要强调点、线、面?为什么要构建工程智能操作系统?这些都是过去二十多年经历逐渐沉淀出来的。

从微软搜索、必应搜索相关技术,到阿里拍立淘、城市大脑、医疗健康,再到今天做工程智能,很多理念是一脉相承的。只是今天技术和产业发展到了新的阶段,我想布一个更大的局,让人工智能技术和产业之间的 gap 在设计之初就被缩小,甚至不再成为最难的问题。

雷峰网:这是否也可以理解为同济大学工程智能研究院的核心定位和出发点?

华先胜:可以这么理解。从学校层面看,最早的初衷是新的工程学科建设需要人工智能介入。做工程智能其实有两拨人:一拨是做工程的人往人工智能方向走,另一拨是做人工智能的人往工程方向走。

这两拨人各有优势和短板。工程领域的人对工程本身的认知非常深,这是他们的专业,也是非常重要的优势,否则你甚至不知道真正应该做什么问题。但他们不一定擅长 AI。做 AI 的人 AI 能力强,但对工程本身问题的认知不够。

两边甚至可能互相觉得对方做得不够好:AI 人可能觉得工程方法太简单,工程人可能觉得 AI 人没有做到正确的问题上。工程智能研究院要解决的一个问题,就是让这两拨人不要割裂开做,而是在一起做。

同济的工程学科是优势,我来到同济做工程智能,也是希望发挥同济工程学科的底座,把工程智能真正变成一个词,而不是两个领域的松散拼接。更大的层面上,就是让人工智能从数字世界走向物理世界,真正成为生产力。

(发布《工程智能白皮书》)

雷峰网:研究院最终希望形成什么能力?是做一批项目,还是建立一套能够持续培养人才、沉淀方法、服务产业的工程智能体系?

华先胜:在回答这个问题之前,我想先补充一点。我过去做人工智能,落地性比较强,不只是写论文、做 demo,而是做真正有几千万、上亿人使用、被现实检验的系统。因此我对行业和领域本身一直有敬畏之心。

现在有一个趋势:谁都想去搞人工智能。这一方面是好事,但如果一个学科的人放弃自身领域,转而去做人工智能本身,不见得是好事。比如医学,如果医学生和医学研究者都去做人工智能,医学本身怎么办?你的优势可能不是人工智能本身,而是你的学科与人工智能的结合。

对于工程、医学等领域的人来说,目标应该是用人工智能推动本学科发展;对于我们做人工智能的人来说,目标则是推动这些学科发展,同时也推动人工智能发展。

我以前做医学人工智能时也有过困惑。我们做医学影像,效果也不错,但好像总是不温不火。后来我想明白了:医学人工智能的目标应该是推动医学的发展。不是说没有 AI 医学就不能发展,而是 AI 带来的技术进步要真正推动医学进步。

就像 CT、MRI 这类技术,它们在医学里有生命力,因为它们改变了医学。如果 AI 只是提升效率,当然也有价值,但生命力不够强。只有推动学科发展,它才会有更强的生命力。

回到研究院的目标,我们不是做项目制,而是要构建一套体系。从可见的结构上讲,我们按照平台、模型、智能体、应用四层来构建。

研究院不是公司,但它也不是一个只做学术的学院,而是一个产学研融合的设计。我们要做学术前沿,也要培养人才,但还要把成果变成可以产业化落地的东西。

不过,真正的产业化落地不一定由研究院本身完成。研究院更像是预研和孵化平台,把技术做到一定程度之后,再通过孵化企业或赋能企业完成产业化。研究院本身不是商业载体,但它承担产学研融合和产业孵化的重要责任。

这也反映在团队构成上。一般学院以学术人才为主,而我们既有学术人才,也有来自产业研究院的人才。他们既有前沿学术研究能力,又有系统设计、系统实现和产品化能力。我们讲产学研融合,不是表面上的融合,而是真正的产研融合。

在架构上,我们还设计了一个三级结构:学校层面的研究院、面向上海的新型研发机构,以及后续孵化或赋能的企业。最终,我们希望从研究院走向产业,从基础能力走向平台化系统,再走向真正的企业和产业生态。

雷峰网:您提到研究院要做的不是项目制,而是一套体系。放在更大的 AI 发展路径里,这套体系和您提出的“共生智能”之间是什么关系?

华先胜:我觉得可以这样理解:如果说传统 AI 落地更多强调“降本增效”,那么共生智能更强调“开智增能”。它不是简单用 AI 替代人工,而是让人与 AI 深度结合,用相同甚至更少的人力,完成更深入、更强大的创造。

我们要做的不是一个个孤立项目,而是把平台、模型、智能体、应用,以及未来的人机协同机制放在同一个体系里,让 AI 的能力和人的能力共同演进。

雷峰网:如果更具体地看,研究院目前已经在做哪些方向和成果?

华先胜:如果从应用领域看,我们目前有土木建造、交通、海洋等方向。比如在建造领域,我们做的是从设计到设计评估,再到建成建筑的状态预测。

一个具体技术叫 BIM to FEA。BIM 是建筑信息模型,主要描述建筑的物理和几何结构。过去很多年,行业一直在使用 BIM;它比平面图更形象,有三维信息,可以看到建筑长什么样。但是,如果要拿 BIM 去评估建筑健康状况、风险,或者分析极端天气、地震对建筑的影响,它还不够,因为这些问题需要进入力学层面。

进入力学层面,就要分析建筑结构中的应力,还要考虑材料等因素。工程上通常通过有限元仿真完成。过去这件事基本靠手工:先有 BIM 模型,再手工构建 FEA 有限元模型,画网格,进行仿真,分析应力。只有把这些分析清楚,才能判断房子会不会有风险。

我们现在希望把这个过程自动化:从 BIM 直接生成力学仿真模型,自动完成网格划分,甚至在某些情况下不经过反复迭代就得到满足条件的仿真结果,并且自动生成分析报告。报告可以告诉设计方案是否存在问题,也可以用于运维阶段,判断一栋建筑应该如何修理、如何保护。

交通领域,我们在交通安全方面有比较好的进展。我们对城市全量交通事故进行深入分析,分析事故成因、责任归属、车辆行为、碰撞位置和各种细节。过去这些都需要人来分析。一个直接应用是帮助交警做事故定责,并且把分析结果与法律法规结合,辅助判断责任。

更大的应用在于,当我们掌握了城市历史交通事故的发生机理,就可以知道事故到底由哪些因素造成:哪些是人的原因,哪些是道路原因,哪些是交通规则原因。这样就可以对城市交通基础设施提出建议,比如哪些地方应该改造,哪些通行规则应该调整,从而降低事故发生概率。

我觉得更有意思的是从司机角度入手。交通事故往往是多种因素叠加造成的。即使道路拥堵、路况不好,如果一个人足够仔细,也可能避免事故。很多时候,是多个条件凑在一起才发生事故。因此我们可以从司机层面去破坏促成事故的因素。

人的驾驶习惯、当天心情、天气状况、交通状况、实时驾驶行为都会影响事故风险。在某种条件下,我们可以提前预测:某位司机今天走到某个地方时,发生事故的概率可能比平时高好几倍。这时就可以提醒他注意驾驶行为,甚至调整路线。过去没有大模型技术,这件事不太好做,但时至今日,这件事已经变得相对更容易了一些。

海洋方向,我们综合多源海洋数据和预测模型,对海洋情况进行分析和预测,例如海面温度变化趋势等,并构建相应的智能体。

还有一个很重要的点是:我们做的东西不是论文,也不是博士论文,而是一个可用系统。当然,今天说它已经是成熟产品还为时过早,但至少它是真正在跑的东西。有些能力要真正落地,还需要和外部系统连接。比如交通中对个人进行提醒,就需要和高德或其他 GPS 系统连接;要做全城市全量事故分析,则需要和城市大脑这类系统连接等等。

除了这些具体领域,我们还做了两个偏通用的能力。第一个是传统工程的全科工程智能体。它不是只面向土木、交通、能源或制造,而是把工程学科里的知识和能力放在一起。我们不是简单做一个大模型,而是做智能体,同时嵌入我们自己调优的模型、知识图谱,以及一些物理约束。

这个智能体主要用于交互式工程教学和研究探索。我们不希望它变成学生直接拿答案的工具,因此设计了启发式模式:学生不知道怎么做时,系统会一步步提醒他从哪里思考,避免直接抄答案。它也针对工程领域做了优化,能够处理全科问题,包括读图、图纸理解、计算、建模等。

第二个是偏科研场景的工具,用来辅助工程智能或人工智能科研。它可以自动追踪全球前沿研究进展和资讯,帮助研究者把握趋势。我们每天做分析,每个人可以有自己的订阅。订阅不是简单推送一条信息,而是拿到信息之后还可以继续和系统沟通:让它进一步总结,与其他论文或资讯关联,或者用不同文风解释。

对于管理者,它可以用通俗语言解释艰深论文;对于技术人员,它可以深入到技术细节。更重要的是,我们希望它不仅是信息工具,还能把人、模型和智能体的能力融合起来,实现互相激发:人激发智能体产生更多有创意的想法,智能体也反过来激发人的想法

(研究院展览体验中心)


03

创造力的「下一维」

雷峰网:灵感计算听起来很特别,我们该如何去理解这个概念?

华先胜:灵感本来看起来是不可计算的。如果能计算,为什么还叫灵感?但我们不是说所有灵感都能计算,而是想解决其中能够被计算的一部分。

比如,一个研究者要产生一个新方法来解决问题,首先会有上下文:可能是一篇论文、一条资讯,或者一个很粗浅的想法。其次,可以放入当前领域最前沿技术的一些关键词;再次,可以放入这个领域存在的各种问题。这些都可以成为不同维度。当然维度可以不止三个,理论上可以有很多维度。

这个想法其实来自我很多年前在北大听过的一堂课。那位老师讲了两个概念,一个叫“维论”,另一个叫“寻找新的自由度”。很多时候我们觉得没有路,是因为把自己限制在二维或三维空间里。换到另一个空间,增加一个维度,问题可能就很简单。

我以前在团队里讲研究方法时,也常说要寻找新的自由度。而灵感的产生,在某种意义上就是升维,或者是在已有维度中寻找没有被挖掘过的地方。

关键在于,如何创造这些维度,而一旦维度创造出来,空间就会变得很广阔。

这也和大模型的创新能力相关。今天大模型能画画、做视频、写诗,看起来有创新能力。但它为什么能创新?创新天花板在哪里?

我用文字来打个比方:第一类是已经存在的有意义文字,也就是人类已经写出来的文本;第二类是所有可能的、有意义的文字组合,它们现实中未必已经存在,但大模型可能生成出来;第三类是任意文字组合,其中很多并没有意义。

大模型今天能够创新的地方,主要是在第二类空间里:现实世界还不存在,但它确实是有意义的组合。它的天花板也在这里,因为它是从已知内容中学出来的。

如果存在一种文字组合,人类现在还不知道它是否有意义,大模型也很难真正判断。它可以随机产生,但无法保证体系性,也无法判断对错。它也无法从文言文直接创造出现代汉语这种语言演化。人类不同的地方在于,人类可以创造逐渐演变的新状态。

所以,灵感计算的思路是构建不同维度,在维度形成的空间里寻找还没有被探索的可能性。这只能解决一部分问题,但已经能大幅提升人的能力。

比如构建一个三维空间,每一维有 10 个向量,就可能产生 1000 个 idea。其中可能 100 个已经被人做过,800 个不靠谱,但剩下 100 个也许有价值。系统可以自动判断哪些已经被做过,哪些不太靠谱,剩下的就可能成为有意义的启发。

难点在于如何“造维”,也就是如何描述创新空间。我们不求完整描述,只要能描述其中一部分空间,就有价值。

雷峰网:这样看,灵感计算其实不是为了让 AI 独自完成创新,而是为了让人和 AI 互相激发?

先胜:是的。AI 的超强能力需要和人类独特的非逻辑创造力结合,才能突破自身能力的天花板。一个好的共生智能系统,不是把答案直接交给人,而是把人推到更高价值的创造环节上。它可以完成大量繁重的信息搜集、比对、推理和生成工作,让人把精力集中在决定性、创造性的部分。

比如教育场景里,如果一个 AI 只是帮助孩子更快刷题、拿到标准答案,它可能把孩子训练成应试高手,却未必能让孩子爱上学习,更难让他成为提出问题的人。但如果 AI 像一位特级教师,引导孩子在学习引力时亲手拖动虚拟行星,再追问“如果引力规则完全不同,会发生什么”,它就可能点燃孩子的好奇心。

科研也是如此。前几年,DeepMind 和牛津大学数学家合作,把 AI 引入拓扑学研究。AI 分析大量被称为“纽结”的复杂拓扑对象,在代数和几何表征之间发现了新的关联模式;人类数学家再把这个模式提炼、理解并完成证明。这个例子说明,AI 可以发现人类难以穷尽搜索的模式,但最终的理解、判断和理论化,仍然需要人的智慧。

灵感计算想做的,就是把这种“互相激发”变得更系统、更可规模化。通过构建不同维度、探索没有被走过的组合空间,智能体可以不断向人提出可能性,而人则用自己的经验、直觉和非逻辑创造力,去判断哪些可能性真正有价值。

(华先胜院长讲共生智能)


04

在碎片世界里建立秩序

雷峰网:工程项目往往很碎片化,不同城市、不同场景差异很大,那么工程智能如何提炼共性,实现规模化复制?

华先胜:这正是为什么要打造工程智能操作系统。我们把工程智能中的核心问题总结为几个层面。第一个问题是建模:怎样用相对统一的方式把一个工程问题建模?工程问题非常复杂,数据量和数据模态都很多,有时间数据、空间数据、图纸、文本、视觉信息、时间序列等。工程领域首先需要一套相对统一的建模机制,能够处理这些异构数据。

这里有两类问题。一类是能够建模的数据,我们尽量通过统一方法建模;另一类是很难放进统一模型的数据,就作为外部数据来使用。有些数据语义不强,数据量又不多,很难 token 化,硬放进统一模型反而没有用。这类数据可以作为上下文,或者作为外部数据,由模型通过另一层能力读取和操作。

工程领域还会涉及物理规律和各种约束,比如成本约束、时间约束、安全性约束等。这些都会比较复杂。我们会把它们抽象成基础能力,但进入具体领域时,还要针对该领域优化和调优。

不能指望一个大一统模型解决所有工程问题,语言模型也许可以某种程度上统一很多语言任务,但工程世界很难这样。因此,我们会有基础框架、基础模型,也会在每个领域进行针对性优化。

这就是工程世界模型,它不是通常意义上只关注三维空间的世界模型,而是要刻画工程场景中的复杂问题,包括设备数据、建筑、机械以及它们之间的关系。刻画之后,还要进行推理,包括优化、预测、仿真等。这个过程不容易,但我们要用相对统一的方法逐步往前走。

雷峰网:如果把这些能力合在一起,工程智能操作系统的技术架构是什么?

华先胜:我们可以把它概括为三层,或者说三个基础研究维度。第一层是工程世界模型。它解决的是可信建模和可信推理:如何准确刻画工程世界,如何在模型之上进行优化、预测、仿真。

第二层是多人多智能体协同系统,也可以叫工程共创的多人多智能体体系。到了这一层,问题不只是模型能不能刻画世界,还包括任务能不能被可靠执行,智能体之间能不能协作,智能体和人之间能不能协同。我们提出四个关键词:可信建模、可信推理、可信执行、可信协同。前两个偏模型层,后两个偏任务执行和协同层。

现在业界非常关注智能体执行框架和 harness,本质上是因为大模型不可靠。怎样在真正完成任务时,让它安全、可靠、可控?工程智能对这一点要求更高,因为工程场景不能简单试错重来,它有更多约束,对可靠性、可解释性和安全性的要求也更高。

第三层是人机互信,这是我们很重要的创新。早期它还是一个概念,后来我们希望把它变成可计算的东西。未来社会生产和生活可能是人机融合的:你的同事、同伴可能是人,也可能是智能体。人和人之间、人和机器之间、机器和机器之间,都需要信任。只有互相信任,协同效率才会高。

但这件事不能停留在理念层面,我们要把信任变成系统中可以计算、可以演化的变量。系统运行的目标之一,是让信任度随着协同不断提升。信任度提升后,工程世界模型对世界的刻画能力会更强,多人多智能体系统完成任务的质量和效率也会更高。

也就是说,人机互信成为系统演进中的一个约束和优化目标。我们也定义了信任如何度量、如何演化,并把它称为信任的动力学方程。

过去,信任更多是管理学或心理学概念。我们希望把它变成可计算概念,与模型精度优化、任务完成能力优化并列,成为系统优化的一部分。这样,模型与模型之间、人和模型之间、人和人之间协同更可信,整个系统运行的效率和可靠性也更高。

这也和我提出的“共生智能”有关。我去年在一个报告里提出这个概念,并在此基础上写了一本书,暂名叫《共生智能:人工智能的下一代》。它有技术哲学,也有系统架构。它不是只讲理念,因为里面的很多东西可以一行一行写成代码,落成系统。

对此我的一个观点是:要让最好的选择成为唯一的选择。也就是说,当我们设计出一个足够好的、人机协同、共生共创的系统,大家自然会选择它。

所以,工程智能操作系统可以由三个基础部分构成:工程世界模型、工程共创的多人多智能体体系,以及人机互信优化。三者合在一起,才构成真正意义上的工程智能操作系统。

而从实现工程智能的技术路径上讲的,共生智能并不是一个抽象口号。未来可以有“共生智能大模型”:它不只是知识问答机,而是在模型和智能体的设计中融入人类长期积累的创新理论和方法,使模型具备一定的“灵感激活能力”。

智能体则像总指挥,负责规划和执行复杂任务。更重要的是,它要能识别逻辑和计算的尽头:当模型靠自身计算无法继续突破时,它就应该主动转向人类伙伴,开启高质量的创造性对话。

如果这个智能体还有长期记忆,能够记住与人的每一次互动,理解人的能力结构、兴趣、偏好和思考方式,那么它就不再只是一次性工具,而会逐渐成为与人共同进化的伙伴。人、模型和系统之间的能力,也会形成螺旋式上升的闭环。

(研究院回廊展厅)


05

人机共事,才是下一站

雷峰网:如果工程智能既有技术、又有信任、还能协同,它会不会取代工程师?

华先胜:我觉得更大的可能不是取代这个职业,而是取代这个职业中的大量人力。可以用一个非常简化的例子来讲:如果工作量是 100,过去可能需要 100 个工程师完成,未来可能 10 个工程师加一批智能体就可以完成,甚至 5 个工程师加一批智能体就可以完成。这是工作量固定时的情况。

换一个角度,如果仍然有 100 个工程师,但他们带着 1000 个智能体,就不是完成 100 的工作量,而可能完成 1000 甚至 10000 的工作量。所以,它不一定取代工程师这个职业,但会改变这个职业中的人力结构和工作方式。

AI 完全取代一个职业,我认为很难,因为大模型的本质是概率预测。我们说它在生成,其实它是在预测。为什么有幻觉?为什么有时候不听话,甚至违反人的某些指令?因为它是概率模型,它根据上下文认为那是最好的结果。它不像人一样有 common sense,它不是不想听话,而是它并不知道自己是否违反了什么。

完全替代人是不现实的。人可以在系统里发挥重要作用,尤其是创新部分。刚才讲灵感计算时也提到,大模型创新有天花板。即使它通过随机方式跳过某些限制,也很难判断那个东西到底对还是错。人有很大的灵活性,也有非逻辑的部分。今天所有 AI 都基于计算,本质上基于逻辑,而人可以超越这部分。

因此,我们设计系统时,会考虑如何充分发挥人的能力,让人在未来有位置。工程智能不是简单取代人,而是让人机共创成为一种新的范式。它会让会使用 AI 的工程师拥有更强能力,也会让不会使用 AI、不能用 AI 赋能自己的人被淘汰。

所以,我更愿意说:AI 不只是帮你完成任务的工具,也应该成为让你自己进步的工具。

从这个意义上说,工程智能真正要避免的是把人挤出系统。一个共生智能系统的目标,不是让人不再思考,而是让人的思考进入更高层次。它会让 AI 承担大量低价值、重复性、计算性的工作,同时不断把人拉回到判断、创造、责任和价值选择的位置。

我觉得,未来最好的 AI 系统,不是让人越来越依赖它,而是让人因为使用它而变得更强。它不是只给你一个答案,而是让你在和它共同完成任务的过程中,逐渐拥有更强的洞察力、判断力和创造力。

雷峰网:展望 5 年后,您认为中国工程智能会达到什么水平?

华先胜:前面描绘的很多东西,可能到那时会逐步成为现实。首先,工程领域里一些核心难点问题,会通过与人工智能的深度融合得到相当程度的解决。比如开放复杂巨系统中的很多问题,今天还没有解,这也是人工智能难以规模化落地的重要原因之一。过去很多 AI 落地没有进入产业核心,只是在外围做了一些事情。

我经常举一个例子:智慧校园如果只是做通行、安防、消防,重要吗?当然重要,但它并没有进入学校的核心。中小学的核心是教育和教学,大学还有科研。只有 AI 进入教学和科研,才真正进入学校核心。

工厂也是一样,如果只做通行、安全检查、有没有人违反安全规定,也不能说不重要,但如果没有进入生产、设计、营销等环节,就没有进入核心。工程智能必须进入工程和产业的核心问题。未来几年,这件事会得到比较好的解决。

第二,工程智能体会全面渗透。当然,“全面”怎么定义还需要讨论,但渗透面一定会很广。工程全生命周期中的策划、设计、施工、运维、运营等阶段,都会出现专业智能体。智能体和人类工程师一起工作,会成为司空见惯的事情。

这背后是人机协同范式的常态化。在大型工程、大城市治理、制造等领域,专业智能体会和专业工程师一起完成任务。我们正在做的人机共创协同平台,或者人机共生共创平台,本质上就是为了这个场景。

智能体和人有不同特点。智能体可以 24 小时工作,只要有 token budget,就可以持续做调研、实验、各种可能性探索。人类则更多贡献 out of the box 的想法,或者非逻辑的创新。

不同智能体也可以扮演不同角色,有的偏创新,有的偏质疑,总是提出不同意见。未来,人还可以把自己的经验和思维习惯培养进智能体,甚至培养自己的 N 个分身。

不过,工程领域有很多核心能力不是今天一个模型就能解决的。体系本身可能很快跑起来,但真正面向工程核心问题的能力,需要深入到具体领域里,一点点构建。

我也希望,通过基础能力、平台化方式和系统构件,中国能够在工程智能技术方面走在世界前沿,甚至形成引领。

更长远地看,AI 带来的挑战不只是效率问题,也不只是生产力问题,而是人在智能系统中的位置问题。如果技术只制造一个无挑战、无摩擦的舒适区,人可能会在极度便利中失去目标。共生智能的意义,是为人类提供持续探索的前沿,以及值得尊敬、能够共同成长的智能伙伴。

我希望未来的 AI,不只是机器越来越像人,而是人与机器能够一起持续成长。工程智能,以及作为工程智能规模化实现形式的共生智能,最终要回答的,都是同一个问题:如何让技术真正以人为本,不是靠说教,而是靠更好的系统设计,让最好的选择成为唯一的选择。

]]> 人工智能 https://www.leiphone.com/category/ai/f9CouXj2jwFifQXy.html#comments Thu, 21 May 2026 11:24:00 +0800 智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速 https://www.leiphone.com/category/ai/mWHMAGcQXpOXwuoB.html

5月19日,北京。 智象未来举办首届开放日,主题为“ Imaging the World ”。在开放日上,智象未来正式发布基于新一代原生全模态模型架构 Unified Transformer(UiT)打造的图像大模型 HiDream-O1-Image-Pro。这一超2千亿参数的原生全模态图像大模型,不仅在多个基准测试中刷新 SOTA 纪录,也标志着智象未来正向图像、视频、文本、音频等多模态统一建模的“原生全模态”阶段迈进。

 

同时,智象未来宣布完成新一轮亿级融资,深创投、金浦投资、财鑫资本、复聚资本等多家机构参与。这是智象未来半个月内再次完成融资,体现出资本市场对原生全模态大模型方向的持续看好。随着视觉生成、具身智能等前沿技术加速融合,世界模型成为 AI 演进的重要方向,智象未来在底层模型架构、产品化能力与产业生态布局上的持续突破,也获得了市场进一步认可。

 200B+ 参数图像大模型HiDream-O1-Image-Pro 发布,原生全模态架构全面升级

 当前,图像生成模型正从传统 U-Net 架构迈向扩散 Transformer(DiT)时代。以潜在扩散模型(LDM)为代表的主流路线,通过 VAE 压缩图像、独立语言模型编码文本,在效率和生成能力上取得显著进展,但图像与文本分离编码的方式,也使模型在复杂语义理解、高保真细节还原、精准文字渲染、多任务泛化等方面面临天然瓶颈。

 面向这一挑战,智象未来正式发布基于原生全模态架构的 200B+ 参数闭源图像大模型 HiDream-O1-Image-Pro。不同于传统碎片化、多模块拼接的编码范式,HiDream-O1-Image-Pro 将原始图像像素、离散文本标记和任务条件统一纳入连续共享标记空间,实现图像、文本与多任务条件在底层表征上的深度融合。这一架构突破进一步释放了模型的生成能力与泛化能力,使其在通用文生图、高保真文字渲染、多样化场景生成、图像编辑等任务中达到新的 SOTA 水平,展现出智象未来在原生全模态大模型架构上的领先探索。

 智象未来创始人兼 CEO 梅涛表示,智象未来选择原生全模态路径,源于团队在视觉生成与物理世界结合过程中的长期判断:“当前很多‘多模态大模型’,本质上还是‘单模态拼接’。而原生多模态,是从一开始就把‘世界的规则’刻进模型里——它知道物理定律、空间关系、因果逻辑,所以它能真正理解世界、推理世界,重构世界,而不只是‘生成内容’。所以,我们判断,原生全模态是实现 AGI 的必经之路。” 

 智象未来联合创始人兼CTO姚霆介绍,不久前,采用原生全模态架构的HiDream-O1-Image 以8B参数开源版本在全球知名独立评测平台 Artificial Analysis 文生图榜单上登顶开源模型全球第一,表现超过 Z-Image Turbo、Qwen-Image、FLUX.2 [dev] 等主流开源模型,并成为该榜单排名前20中公开参数量最小的模型版本。此次发布的HiDream-O1-Image-Pro为闭源版本,超两千亿参数,在复杂文本渲染、指令编辑、多主体个性化等任务上全面树立新 SOTA, 充分验证了原生全模态架构范式的巨大可扩展性。

 

姚霆表示:“原生全模态(UiT)架构下,所有模态从初始阶段就是青梅竹马长起来的。这样的好处是,所有的模态都打通后,能够真正的做到‘ Any to Any ’,任意的输入支持任意的输出,这也是世界模型所需要的能力——在统一架构中理解、生成并预测现实世界的不同状态。”

从视觉生成走向世界模型:行业共议 AGI关键路径

当前,大模型竞争焦点正从语言理解与内容生成,转向对真实物理世界的理解、生成和预测。围绕世界模型,行业内已出现多种技术路线,但共同目标是一致的:让 AI 不只生成内容,而是建立对世界状态及其变化规律的内部表征能力。

在开放日圆桌论坛环节,东方富海合伙人王兵、微软亚洲研究院首席研究员傅建龙、阿里云资深解决方案总监宁江彬、智象未来技术合伙人潘滢炜与 AI 闹发起人洪鹄,围绕“从多模态到全模态,构建世界模型,走向 AGI ”展开对话。嘉宾们分别从 AI 投资、具身智能、AI 基础设施和原生全模态技术实践等角度,分享了对世界模型发展路径的判断。

与会嘉宾认为,AI 正在从“生成内容”走向“理解世界”。视觉生成、Agent、具身智能和多模态模型的汇合,背后指向同一个关键能力:模型能否理解不同模态下的环境状态、预测状态变化,并形成统一的跨模态表征。

因此,视觉生成并不只是内容生产工具。它天然需要学习空间结构、物体关系、运动轨迹和状态变化,也具备向世界模型延展的基础。原生全模态架构的价值,正是在于为图像、视频、文本、音频乃至动作和具身数据提供统一建模框架,让模型从单点模态能力走向更完整的世界建模能力。

半月内完成多轮融资,三大Agent产品持续扩展商业生态

不久前,智象未来宣布完成超5亿元融资,股东阵容涵盖安徽省产投、合肥产投、东方富海等顶级投资机构。开放日上,智象未来透露公司融资持续提速,半月内再度完成由深创投、金浦投资、财鑫资本、复聚资本等参与的新一轮融资。

公开资料显示,金浦投资是上海金融发展投资基金的管理人,首期基金投资项目已有 13 家通过 IPO 或并购实现上市,在算力基础设施、大模型和智能体应用等多个 AI 前沿领域深度布局;财鑫资本是常德市属国企财鑫集团旗下的核心产业投资平台,致力于以资本力量服务实体经济、推动科技创新,聚焦于人工智能、具身智能等具有明确产业落地前景的硬科技领域投资;复聚投资专注于前沿细分领域领航企业的价值发现,在智能制造、新能源、新材料、生物医药领域、人工智能等战略新兴产业布局广泛。随着深创投、金浦投资、财鑫资本、复聚资本等新投资方的进入,智象未来已形成了由安徽、上海、湖南、杭州等多方产业基金持续跟进,深创投、东方富海、峰华资本、敦鸿资本等头部市场化 VC 参与的多元化资本阵容。

融资节奏加快的同时,智象未来打造了以模型为根基,以智能体应用做轮子,驱动技术落地变现的‘模型+智能体’双轮驱动战略,并形成了一套清晰的“1+1+3”业务架构:底层是1个 HiDream 系列大模型,中间是1个能力中台(HiHarness 企业服务平台),上层智能体应用则覆盖商业营销、影视创作和社媒创作 3 大核心场景。

开放日现场,智象未来三位产品负责人分别介绍了智能体应用产品进展,全方位展示了公司在商业化落地上的“即战力”。商业营销智能体 HiBurst,已覆盖跨境电商内容营销、媒体运营和应用出海等场景,支持 TikTok、Meta、抖音、小红书等主流平台,并成为 TikTok 官方 top 5 服务商,年生产电商营销视频超过百万条,覆盖 GMV 已超亿元;全球首个专业级 AI 影视创作与协作智能体——“帧赞”,以电影级画质生成和“创意-分镜-成片”全流程打通的核心能力,为专业影视创作团队提供了兼顾高品质和高效率的协作创作工具。该平台目前已累计制作短漫剧超过 5000 分钟,平台入驻专业团队与生态合作伙伴超千家;社媒创作智能体 vivago 近日完成产品升级,凭借端到端的长思考能力稳定输出分钟级故事视频能力,火速登上 Product Hunt 日榜第一,目前,vivago 已覆盖 100 多个国家及地区的超 4000 万专业及个人用户。

活动现场,智象未来宣布与影视行业领军企业上海电影集团上影新视野基金、国内最大的营销传播集团蓝色光标、AI 影视头部企业北京捷成世纪、跨境医疗服务领域领先企业倍尔健康达成战略合作。各方将围绕大模型能力调用、智能体应用开发、行业场景共建等方向开展深度合作,共同推动原生全模态大模型在影视创作、商业营销、跨境电商、IP 运营、医疗健康等多个赛道的产业化落地。

从视觉生成,到构建世界

从 HiDream-O1-Image-Pro 的发布,到三大智能体产品的落地,再到与产业伙伴的生态合作,智象未来正在形成一条清晰路径:以原生全模态架构为基础,持续提升视觉生成能力,并进一步向世界模型所需要的统一理解、生成和预测能力演进。

这也是智象未来所强调的“ Imaging the World ”:不只停留在“生成视觉内容”,而是通过原生全模态建模,让 AI 逐步具备理解世界、生成世界、构建世界的能力。未来,智象未来将继续围绕 UiT 原生全模态架构,推动模型、智能体和产业场景协同演进,向更完整的世界模型迈进。

]]> 人工智能 https://www.leiphone.com/category/ai/mWHMAGcQXpOXwuoB.html#comments Thu, 21 May 2026 11:07:00 +0800 贝塔无限连续完成种子轮、种子+轮数亿元融资,以系统工程重构消费级具身智能 https://www.leiphone.com/category/ai/W4jduezsmWldd7E0.html 近日,据雷峰网了解,聚焦消费级通用具身智能的先锋企业 贝塔无限 Beta Infinity 宣布,公司已先后完成种子轮、种子+轮数亿元融资。种子轮由洪泰基金、正景基金、银杏谷资本、水木清华校友种子基金、粤科金融等知名投资机构联合投资,种子+轮由世纪华通参与的盛趣泰和基金与和利资本联合领投,毅达资本、南山战新投等知名机构跟投,义柏资本担任财务顾问。两轮资金将主要用于核心技术研发、产品试制等。

贝塔无限正式于2026年3月开始运营,专注于打造业界领先的消费级具身智能物理Agent与终端产品。

创始人兼CEO刘武龙博士毕业于清华电子工程系,曾担任华为大模型工程团队负责人。华为任职期间,刘武龙博士带领团队从0-1孵化了华为智能驾驶,负责华为首个不依赖高精地图的智驾产品ADS 2.0量产和交付,奠定华为在智驾市场的领先地位;组建数百人团队,从0到1打造昇腾万卡集群训推系统,主持昇腾万卡集群调优。学术层面,刘武龙担任机器人顶会CoRL20/21 两届大会领域主席、Nature子刊评委,发表AI顶级期刊/会议论文80余篇。

联合创始人兼 CTO 陶帅同样毕业于清华电子系,曾担任字节负责搜索、网盟商业化AI算法和工程总监。字节任职期间,陶帅带领百人 AI 算法团队,从0到1打造年收入数百亿的 “千人千面” C 端智能系统,在个性化技术与复杂系统架构领域积淀深厚。

据悉,贝塔无限核心团队已迅速组建完成,汇聚了来自华为、字节跳动、智元、大疆等头部企业的技术精英与行业顶尖专家,拥有业界稀缺的自动驾驶全栈、大模型系统工程、具身基础模型、个性化AI产品、硬件量产交付的完整经验和领先能力。

贝塔无限瞄准万亿级新型具身消费级终端市场,希望打造极致理解每位用户且能够持续智能化演进的通用具身智能系统,依托BetaBrain、BetaData、BetaAgenticOS、BetaDesign四维一体的Beta Matrix核心架构范式,构建 “情商(千人千面)+ 智商(自主演进)” 双维智能体系,支撑真正适配消费级市场的通用具身智能系统落地,让具身智能走进千家万户。

针对当前具身智能领域缺乏个性化、自主决策能力弱等行业痛点,贝塔无限将依托多模态个性化物理Agent、情感智能交互系统及自主行为进化技术,使产品实现从 “被动响应” 到 “主动理解” 的体验升级,为用户提供高度个性化、有价值感的具身产品。其自研首创的全时空多模态记忆 + 自然交互和任务规划统一大脑架构BetaBrain,多项关键性能指标已达到国际领先水平,典型长程复杂任务平均完成度提升20%;依托强化学习驱动的记忆演化机制与真实世界个性化反馈系统,具备 “懂对话、有记忆、自演进、长执行” 核心特质,助力具身智能真正融入家庭消费场景。

目前,贝塔无限正全力研发首批消费级具身智能产品,其先锋体验版计划年内亮相;同时,贝塔无限已与多家上下游产业头部企业达成深度战略合作,实现技术和产品落地的双重突破。

种子轮投资机构寄语

银杏谷资本创始人、董事长陈向明表示:具身智能是人工智能产业下一阶段的核心赛道,消费级场景更是万亿级增量市场。银杏谷资本立足于产业前沿和科技前沿的交汇点。刘武龙和贝塔无限,是我们所看到的,少有的既具有技术稀缺性,也具备清晰商业化路径的“产业化复合团队”。公司一边推进 C 端产品自研落地,一边向 B 端产业伙伴开放核心系统能力、实现技术复用,BC 协同的发展模式非常健康。我们长期看好消费级具身智能的产业化落地,期待贝塔无限持续突破技术边界,为行业输出标准化、可落地的智能解决方案。

洪泰基金管理合伙人表示:当下AI技术和具身赛道,正从模型能力比拼,全面走向场景化、个性化、产品化落地。我们非常看好贝塔无限这种“AI跨域”的组合,刘武龙是业界少数兼具智能驾驶和大模型系统技术和产品工程经验的专家;陶帅是国内深度学习与大模型商业化应用落地的专家。我们认为,真正有价值的AI企业,一定是技术有颠覆、产品能贴合实际的企业。未来洪泰也将充分发挥产业与生态资源优势,助力贝塔无限成长为消费级具身智能领域的标杆企业。

水木清华校友种子基金合伙人王学辉表示:贝塔无限的核心创始团队均来自清华,刘武龙非常深刻地体现了企业家精神、科学家视野以及清华人格局,在过去的十年时间里,他横跨了智能驾驶、大模型等多个前沿领域,并做出了业界瞩目的成绩,多次实现“技术 - 产品 - 市场” 的完整闭环。水木基金希望在百年大变局的大β中,努力筛选寻找超强的α。我们相信贝塔无限就是这样一家未来的清华系领军企业。

种子+轮投资机构寄语

和利资本合伙人王馥宇表示:消费级具身智能是当之无愧的万亿级蓝海赛道,家庭智能终端、泛消费机器人等场景需求正在全面爆发,市场空间广阔、成长确定性极强。贝塔无限既懂底层核心技术攻坚,又深谙C端用户需求与产业商业化逻辑,这种跨领域、复合型的顶尖团队在行业内尤为稀缺。未来,和利资本将充分发挥自身产业生态、硬科技资源与资本赋能优势,助力贝塔无限定义行业新标准。

毅达资本投资人表示:毅达资本看好消费级具身智能的万亿级蓝海赛道,坚定看好贝塔无限团队的工程化能力与商业化视野。创始团队兼具华为智驾大模型、字节千亿级 AI 商业化的全栈经验,是业内稀缺的复合型创业团队。公司首创 “千人千面 + 自主演进” 技术路径,以 BetaMatrix 架构解决行业数据稀缺、个性化不足的痛点,BC 协同商业模式清晰务实。我们相信,贝塔无限有望成为消费级具身智能领域的标杆企业,引领技术落地与产业升级。

南山战新投投资人表示:我们选择与贝塔无限同行,既是看好消费级具身智能赛道的高增长爆发潜力,也是高度认可团队在技术创新与 C 端商业化落地层面的深刻理解。贝塔无限是一支能够贯通底层技术研发与用户价值落地的复合型团队,核心竞争力突出。未来,南山战新投将为企业提供政策资源对接、产业生态协同等全方位赋能支持,携手打造面向未来的消费级具身智能标杆企业。

贝塔无限刘武龙表示:“两轮融资的连续快速落地,既是资本市场对具身智能赛道的认可,更是机构伙伴对团队技术实力与TechVision的信任。我们将持续聚焦用户真实需求,以技术创新打破人机交互的边界,让高情商、可进化的智能机器人走进千家万户,重塑消费级智能产品的行业格局。”(雷峰网)


]]> 人工智能 https://www.leiphone.com/category/ai/W4jduezsmWldd7E0.html#comments Wed, 20 May 2026 12:43:00 +0800 “声智融合、智启未来”全场景语音AI技术与产业发展战略研讨会在北京大学成功召开,开启语音交互的未来生活方式 https://www.leiphone.com/category/ai/53JyW4GyXsHriUqD.html 近日,由北京大学前沿工程博士联合会与声智科技(SoundAI)联合主办的“声智融合、智启未来”全场景语音AI技术与产业发展战略研讨会在北京大学圆满落幕。

值此北京大学建校128周年之际,活动汇聚了海淀区人才工作局、北京市科技装备业商会等政府机构代表,以及来自华为鸿蒙、字节跳动、中信证券等领军企业与金融机构的专家。研讨会由声智科技首席产品官、北大光华校友黄赟贺担任主持。

作为主办方之一,北京大学前沿工程博士联合会充分发挥了北大在前沿工程学科上的深厚积淀与跨学科优势,致力于打通“学术—产业”双向通道。联合会通过整合校内顶尖科研资源与前沿工程博士群体的产业经验,构建了高水平的产学研协同创新平台,旨在将实验室的前沿技术转化为驱动产业升级的核心动能。

活动现场展示的与声智科技联合创新研发的覆盖“办公+生活”全场景AI Agent Mic便是这一转化机制的成果体现。在办公场景下,设备可实现会议信息的实时记录、深度总结梳理及战略报告的一键调用。

在生活场景中,接入openclaw、声智语音AI技术等核心能力,它则化身为日常事务、vibecoding、灵感速记的随身助手,实现替代键盘的语音交互新范式。

该产品的协同创新彰显了北京大学通过产教融合机制,赋能硬科技企业突破关键技术瓶颈的战略布局。

通过此次活动,声智科技进一步彰显了其在声学AI领域的专业引领力,而北京大学前沿工程博士联合会则成功搭建了连接基础研究与产业应用的桥梁,双方共同为全场景智能化协作提供了全新的技术范式与解决方案,助力新质生产力在人工智能领域的加速形成。

]]> 人工智能 https://www.leiphone.com/category/ai/53JyW4GyXsHriUqD.html#comments Tue, 19 May 2026 23:08:00 +0800 代码驱动的视觉感知:为什么说「看得懂代码」才是大模型攻克理科题的真正钥匙 |CVPR 2026 https://www.leiphone.com/category/ai/5V1IJOdYhKnzkAmF.html 代码驱动的视觉感知,正在为大模型补上「看」这门必修课。

    作者丨陈淑瑜

    编辑丨岑   峰

                                                                                                               

如果把过去几年多模态大模型在STEM领域的进展放在一起审视,会发现一个相当微妙的错位。研究者们几乎把全部精力都押在了推理能力的提升上,强化学习、思维链、自我纠错……各种花式推理策略层出不穷,模型在文本推理基准上的得分也确实在节节攀升。

但一个尴尬的事实始终摆在那里:当模型被丢进一道需要看图才能解答的几何题时,它依然经常给出让人啼笑皆非的答案。

这中间到底出了什么问题?

过去,业界习惯性地把锅甩给“推理能力不足”,认为只要把CoO做得更长、把RL奖励设计得更精巧,模型自然能在视觉推理任务上迎头赶上。于是大量的工作涌向推理链路优化,视觉感知端却几乎被当成了一个“已经够用”的黑箱。

但上海交通大学人工智能研究院与Qwen团队联合提出的CodePercept(代码驱动的视觉感知),则给出了一个截然不同的诊断结果:

当前阶段,限制大模型STEM视觉推理的真正瓶颈,并非是推理能力,而是视觉感知。

论文地址:https://arxiv.org/pdf/2603.10757

开源代码:https://github.com/TongkunGuan/Qwen-CodePercept

这不是一个随意的猜想。团队的诊断方式非常系统,他们将STEM视觉推理任务解耦为“感知”和“推理”两个阶段,分别扩展其中一个能力、同时保持另一个能力不变。结果证明,扩展感知能力带来的性能提升,始终优于扩展推理能力。

图1:扩展感知优于扩展推理

换句话说,模型的“眼神”远比我们想象的更差,而解决“眼神差”的问题,带来的边际收益远超继续优化“脑子”。

01

自然语言的天花板

一旦确认“感知才是短板”,接下来的问题就是:如何提升感知?

一个直觉方案是:用强大的闭源模型去生成图像描述(Caption),然后做知识蒸馏。既然GPT-5和Claude看得懂,让它们当老师不就行了?

但研究团队在实际操作中发现了一个更深层的问题:自然语言是模糊的,表达能力存在上限,很难非常精准地描述一个场景。

想象一下,你要用文字去精确描述一个三维四面体的空间结构,包括每条棱的长度、每个面的倾斜角、辅助线的空间走向。即便你用上了“位于左下角45度方向、长度为3.2cm、与水平面夹角30度”这样精确的语言,描述依然是模糊的。因为自然语言本质上就是为“大概意思”而生的媒介,它天然缺乏数学层面的精确性。

更致命的是,这种描述的模糊性还会在被AI生成描述的过程中进一步放大。

团队将这个问题概括为自然语言的“描述性失语”。

但如果说自然语言是“模糊”的,那什么语言才是“精确”的?

答案是代码。

一段Python程序画出的几何图形,每个坐标都是确定的、每个参数都是可验证的、每个空间关系都是可执行的。

代码不承认“差不多”,要么对,要么运行报错。这种二值化的精确性,恰恰是STEM视觉感知最需要的。

02

让代码成为视觉感知的“第二语言”

基于这一洞察,研究团队提出了一个全新的范式——CodePercept(代码驱动的视觉感知),其核心思想可以用一句话概括:让代码成为视觉感知的“第二语言”。

团队从两个维度系统性地用代码重新定义了视觉感知任务:

第一个维度:代码驱动的描述生成(Code-Grounded Caption Generation)。

传统Caption生成的做法是“看图说话”,模型看了图,生成一句自然语言描述。但CodePercept的做法变成了“看图→写代码→用代码验证描述”的三段式。

可执行代码被当作图像描述的“绝对真理”,代码中写明的坐标、数量、几何关系,无一不是对原始图像的精确转录。模型通过生成可执行的代码来“验证”自己对图像的理解是否正确。

第二个维度:STEM图像到代码转录(STEM Image-to-Code Translation)

这比前一个步子迈得更大。

团队直接引导模型学习从图像到代码的端到端映射,给大模型一张几何图,让它直接生成能够重现这张图的Python代码。这不是让模型去“描述”图,而是让模型去“复现”图。

这个任务的精妙之处在于它的可验证性:代码是唯一一种可以“执行后验证”的表达形式。你描述一张图,没人知道你描述得对不对;但你写一段代码,运行之后渲染出来的图一比对,对就是对,错就是错。没有中间地带。

由于模型必须真正理解“观测特征”与“代码片段”之间的内在映射法则,才能生成正确的重建代码,所以这种二值化的确定性反馈,反过来又迫使模型得以建立更精确的视觉理解。

图 2. CodePercept 的总体流程图

Part 01:构建高质量图像-代码对   Part 02:代码驱动的描述生成、STEM图像到代码转录   Part 03:形成 ICC-1M数据库。

03

百万级数据的炼成

新范式的落地,需要与之匹配的训练数据。但问题是,代码驱动的视觉感知数据在现实中几乎不存在,无法仅靠简单地爬取网页就得到“图像-描述-代码”三元组。

为此,研究团队构建了ICC-1M数据集,包含100万个高质量的三元组(Image-Caption-Code),并通过三条创新的合成流水线实现了从零到百万的数据生产:

第一条:图像复现(Image Reproduction):将现有的STEM图像精准转化为可执行的Python代码。

这相当于给每张图配上一段“源代码”,确保代码与图像之间形成严格的对应关系。

第二条:图像多样化(Image Diversity):提取种子图像的核心STEM原理,在不改变数学本质的前提下,通过参数变化在不同的视觉语境中重新实例化,从而生成大量视觉上不同但原理一致的新图像。

第三条:立体几何合成(Solid Geometry Synthesis):基于模板的立体几何代码生成,能够产生大量包含三维空间变换、多面体交叉和辅助线体系的训练样本。

这三条流水线突破了当前MLLMs在立体几何空间关系上的集体短板,也为新范式的出现搭建了强硬的数据底座。

图3:从图像复现到图像多样化到立体几何合成

04

从“看得见”到“看得准”

有了数据,接下来就是训练策略的问题。

CodePercept的独特之处在于,它没有简单地在ICC-1M上做一轮SFT(监督微调)就收工,而是设计了一套两阶段渐进式训练策略,完整覆盖了“学会”到“精通”的全过程。

第一阶段:CodePercept-S1(监督微调)

既然描述和代码本质上都是对同一视觉信息的表达,为什么不把“看图写描述”和“看图写代码”当作两个并行任务来联合优化?

于是,团队在SFT阶段同时优化 Image2Caption 和 Image2Code 两条任务路径,让模型在同一套视觉编码器上建立双通道的感知能力,既学会生成自然语言描述,也学会生成精确的复现代码。

两条任务共享视觉特征提取过程,相互促进、相互补充。

第二阶段:CodePercept-R1(强化学习)

SFT能让模型“学会”写代码,但离“写对”还有距离。

原因在于,代码生成是一个容错率极低的任务。Caption写错一个数,读者大概还能猜出原意。代码写错一个坐标,渲染结果就完全走样了。

为了从“差不多对”跨越到“精准对”,团队引入了GRPO(Group Relative Policy Optimization)强化学习,并设计了三层递增的奖励机制:

GRPO让模型在不断的自我试错中,逐渐学会“什么样的代码才能精确还原图像”。这种从SFT到RL的递进,本质上就是从“知道怎么干”到“知道怎么干对”的质变。

图4 CodePercept-S1 模型和CodePercept-R1 模型的训练曲线

05

可验证的感知评估

在传统的评测体系里,感知能力往往是通过最终的解题正确率来反推模型感知好不好。但这种评估方式存在一个根本性漏洞:模型可能答对了题,但根本没看懂图(比如仅凭文本提示就猜出了答案),也可能看懂了图但推错了解题步骤。

简而言之,传统评估无法将“感知”和“推理”真正解耦。

为了解决这个问题,团队推出了STEM2Code-Eval,这是一个包含1000张经过人工精校图像的感知评测基准。

它的评测逻辑简单而苛刻:模型必须生成能够100%还原原始图像的Python代码,然后用代码渲染结果与原图进行像素级精确度比对。

基于STEM2Code-Eval,研究团队得以充分验证代码能不能跑、跑出来像不像。

图5 STEM2Code-Eval 基准的流程

在这个基准上,团队以Qwen3-VL为基座模型进行了全面测试,结果相当震撼:

在Captioner-Solver评测模式下,CodePercept-8B-S1仅用80亿参数就超越了Qwen2.5-VL-72B(优势达6.2%),甚至逼近了Claude-Opus 4.1-Thinking和GPT5-Thinking这样的闭源前沿模型。

而在纯粹考查感知的图像还原任务(STEM2Code-Eval)上,经过强化学习优化的CodePercept-8B-R1斩获63.56分,全面超越了Seed 1.6-Vision和Qwen3-VL-Plus等超大参数规模的旗舰模型。

图 6. 在 STEM2Code-Eval 上使用 1k 样本的性能评估

这些数据指向了一个反直觉的结论:参数的堆砌并不能弥补感知能力的缺陷,而代码驱动的感知训练,即使在小参数模型上,也能产生超越量级的感知跃迁。

06

结语

把CodePercept放在CVPR 2026的大背景下看,它的意义远远不止是“又一个新SOTA”。

过去几年,多模态大模型领域有一个默认的“升级路径”,参数越做越大、数据越堆越多、推理链越走越长。这条路径的隐含假设是: 视觉感知已经足够好了,只要能推理,就能解决问题。

但CodePercept用系统的实验证据证明,这个假设可能从一开始就是错的。当模型的“眼神”连一个简单几何图形的坐标都读不准时,再强的推理能力也无从发挥。

更值得关注的是它的方法论转向:用代码作为视觉感知的锚点。 这是对“视觉理解”这件事本身的重新定义。

如果视觉理解的最终目标是“能够精确复现所看到的东西”,那么代码比自然语言天然更具优势,因为它自带可验证性。

而Qwen团队的加持,更意味着这一范式有强大的工程底座作为支撑。从Qwen3-VL的视觉编码能力到GRPO在代码生成场景的落地,这套技术栈的成熟度远非一个纯学术原型可比。

也许未来,更多团队会重新审视“感知vs推理”的权重分配,更多研究者会将代码纳入视觉理解的标准工具箱。“给大模型装上基于代码逻辑的火眼金睛”,正在成为一条真实可行的技术路线。(雷峰网)

]]> 人工智能 https://www.leiphone.com/category/ai/5V1IJOdYhKnzkAmF.html#comments Tue, 19 May 2026 16:58:00 +0800 CVPR 2026 自动驾驶与协作智能梳理:模型正在走向可控真实世界 https://www.leiphone.com/category/ai/fMkWxfMZbW2XRxwK.html 从仿真构造到多主体配合,AI 正在补齐行动决策链条。

    作者丨郑佳美

    编辑丨马晓宁

                                                                                                               

过去,视觉模型更多是在回答“看见了什么”,但当 AI 进入自动驾驶、游戏、机器人和多智能体协作场景时,问题已经不只是识别环境,而是“看见之后如何行动”。

一辆自动驾驶汽车不能只知道前方有车,还要判断如何避让、如何规划路线,甚至要在遮挡、夜晚和复杂天气中借助外部信息补足感知,一个游戏智能体不能只识别画面里的角色、障碍和敌人,还要把连续观察转化成具体操作;多个机器人或虚拟人也不能只是各自执行动作,而要根据队友位置、物体形状、任务目标和团队规模动态配合。

这种变化在 CVPR 2026 的相关研究中变得更加清晰:自动驾驶方向不再只关注单一感知模块,而是开始围绕可控场景生成、真实感仿真、端到端驾驶对齐和空间检索增强展开。

智能体方向也不再停留在“看见运动”,而是进一步探索如何从视频追踪走向动作学习,如何从互联网规模的玩家视频中恢复操作监督;多智能体方向则把问题推进到更复杂的团队行为,包括任意队伍规模下的人形协作,以及离线数据条件下的多目标协作学习。

这些研究看似分布在自动驾驶、游戏智能体和多人协作等不同任务里,但背后其实都在推动同一条能力链条:让模型从环境感知走向行动决策。

它们关心的不只是输入图像是否被正确理解,而是场景能否被构造,动作能否被学习,策略能否在闭环中稳定执行,多个主体能否在同一任务中形成配合。

也正因此,AI 的能力正在从“理解世界”进一步延伸到“参与世界”——不只是看见道路、角色或物体,而是能在复杂环境中判断、行动,并与其他主体协同完成任务。

01


从可控场景生成到空间记忆增强

自动驾驶研究正在从“让模型看懂当前画面”,进一步走向“让模型能够构造、编辑和利用更复杂的驾驶世界”。在仿真与训练中,一个关键问题是:如何生成足够真实、可控且多样的驾驶场景,尤其是那些真实道路中少见但对安全至关重要的危险交互、罕见轨迹和复杂交通情况。

由 NEC 美国研究院、石溪大学和加州大学圣地亚哥分校共同提出的《HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles》。研究的是自动驾驶场景中的可控视频生成与编辑问题,也就是如何在已有驾驶视频中精确修改车辆轨迹、插入新车辆,或者改变自车与其他交通参与者的运动方式,同时保持画面的真实感、空间一致性和时间连续性。

现有方法往往难以同时做到高真实感和精确控制:要么编辑能力有限,要么生成结果容易出现结构不稳定、时序不连贯的问题。

HorizonForge 的核心思路是先把驾驶场景重建成可编辑的 Gaussian Splats 和 Meshes,再在这个 3D 表示上进行精细操作。系统可以直接修改车辆轨迹、调整场景几何,或根据语言指令插入新车辆;编辑后的结果再通过 noise-aware video diffusion 渲染出来,用扩散模型补足真实感,并保证空间和时间一致性。

相比每条轨迹都要重新优化的方法,HorizonForge 可以在一次前向推理中生成多种场景变化,更适合大规模自动驾驶仿真。

论文地址:https://arxiv.org/pdf/2602.21333v2

它的亮点在于,把 3D 可编辑表示和视频扩散生成结合起来:前者负责轨迹和车辆控制,后者负责最终视频的自然性和连贯性。论文还提出 HorizonSuite 评测基准,覆盖自车和交通参与者两个层面的编辑任务,包括轨迹修改和物体操作等场景。

实验中,Gaussian-Mesh 表示相比其他 3D 表示能带来更高保真度,视频扩散中的时间先验也对连贯合成非常关键;最终 HorizonForge 相比第二名方法实现了 83.4% 的用户偏好提升和 25.19% 的 FID 改进。

整体来看,这篇论文把自动驾驶场景生成从“生成一段看起来像驾驶视频的画面”,推进到“可精确编辑轨迹、车辆和 3D 场景结构的可控仿真”。它的意义不只是让驾驶视频更真实,也在于为感知、预测和规划模型提供更可控、更可扩展的训练与测试环境。

有了可编辑的仿真场景后,另一个问题随之出现:仿真画面本身是否足够真实,能否在插入车辆、行人等动态物体后,仍然保持自然的光照、阴影和前后景一致性。

由英伟达、多伦多大学、康奈尔大学和以色列理工学院合作完成《DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion 的Enhancer》,研究的就是自动驾驶和机器人仿真中的真实感增强问题。

现在很多仿真环境可以通过 NeRF、3D Gaussian Splatting 等神经重建方法从真实数据中恢复出来,但在新视角渲染、稀疏视角外推,或插入其他场景的动态物体时,常常会出现几何伪影、缺失区域、光照不一致、阴影缺失和前景背景风格不统一等问题。

DiffusionHarmonizer 的核心思路是把神经重建渲染出的不完美画面,在线增强成更真实、更连贯的仿真视频帧。它不是重新构建整个 3D 场景,而是在渲染后加入生成式增强模块,用来修复新视角伪影、协调前景和背景外观,并为插入物体生成更合理的阴影。

模型由预训练的多步图像扩散模型改造成 single-step temporally-conditioned enhancer,只需一步推理就能增强当前帧,同时利用前几帧作为时间上下文,保证在线仿真中的时间稳定性。

论文地址:https://arxiv.org/pdf/2602.24096v2

它的亮点在于,既保留扩散模型的真实感生成能力,又尽量满足在线仿真的效率要求。普通视频扩散模型计算成本太高,普通图像增强模型又容易造成帧间闪烁;因此论文把多步扩散模型改造成确定性的单步增强器,并加入时间条件。

同时,作者还设计了专门的数据构建流程,合成外观协调、伪影修复、重光照、阴影生成和物体重新插入的数据,让模型学会处理颜色不一致、重建错误和光照不真实等问题。

整体来看,这篇论文把神经重建仿真从“能渲染出场景”,推进到“能生成更接近真实世界的在线仿真画面”。它的价值不只是让画面更好看,而是让基于真实数据重建的仿真环境更可信、更稳定,也更适合大规模训练和评测。

而当仿真环境变得更真实、更可控之后,训练出来的驾驶模型是否能在闭环中稳定执行,又取决于专家示范和学生模型之间是否真正对齐。由德国图宾根大学及图宾根人工智能中心、英伟达研究院以及德国“人工智能科学”卓越集群合作完成的《LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving》研究就的是端到端自动驾驶中的模仿学习问题。

虽然仿真器可以生成大量驾驶数据,但用专家轨迹训练出的学生模型,在闭环驾驶时仍然容易不稳定,核心原因在于专家和学生之间存在明显的信息不对称。专家往往拥有更强的“上帝视角”,而学生模型在测试时只能依赖车载传感器输入和有限导航信息,因此很难可靠模仿专家行为。

LEAD 的重点不是单纯换一个更大的模型,而是系统性地缩小 learner-expert asymmetry。作者把这种差距分成两类:一类是 state alignment,即专家看到的信息和学生实际能看到的信息不一致;另一类是 intent alignment,即学生在测试时只拿到一个目标点,导航意图过于模糊。

论文地址:https://arxiv.org/pdf/2512.20563v2

针对这些问题,论文对专家生成方式、学生输入、导航目标表达和训练数据监督进行了修改,让学生学到的驾驶策略更接近自己真实测试时能执行的行为。

这项研究它没有把端到端自动驾驶的失败简单归因于模型容量不足,而是指出了模仿学习中更根本的训练偏差:

如果专家示范依赖学生看不到的信息,学生即使学得很像,也可能在闭环中犯错。通过减少可见性差异、不确定性差异和导航意图差异,论文训练出的 TransFuser v6(TFv6)在多个公开 CARLA 闭环 benchmark 上取得新的最好结果,例如在 Bench2Drive 上达到 95 DS,并在 Longest6 v2 和 Town13 上超过以往方法两倍以上。

整体来看,这篇论文把端到端自动驾驶中的模仿学习问题,从“如何让学生更好地模仿专家”,推进到“如何让专家示范更适合学生真实可见、可执行的条件”。

此外,论文还将感知监督整合进 sim-to-real 流程,并在 NAVSIM 和 Waymo Vision-Based End-to-End Driving benchmark 上带来稳定提升,说明这种对齐思路也有助于真实世界数据下的端到端驾驶泛化。

如果说 LEAD 关注专家与学生之间的信息对齐,那么《Spatial Retrieval Augmented Autonomous Driving》则进一步把自动驾驶的输入来源从车载传感器扩展到外部空间记忆。

论文由复旦大学可信具身智能研究院、上海交通大学、中国科学院空天信息创新研究院目标认知与应用技术重点实验室、中国科学技术大学共同提出,研究的是自动驾驶中的一个新思路:现有自动驾驶系统主要依赖车载摄像头、激光雷达、IMU 等实时传感器感知环境,但这种方式很容易受限于当前视野。

一旦遇到遮挡、夜晚、雨天或视距不足,模型就可能看不清道路结构。人类驾驶员在这种情况下往往会凭借对道路布局的记忆继续判断,而这篇论文希望给自动驾驶模型也加入类似的“空间记忆”能力。

论文提出的核心范式叫 spatial retrieval,也就是根据车辆当前位置检索离线地理图像,比如卫星图、街景图或已有自动驾驶数据集中的地理图像,并把它们作为额外输入提供给自动驾驶模型。

论文地址:https://arxiv.org/pdf/2512.06865

这些信息不需要增加新的车载传感器,可以从离线地图缓存或公开地图 API 中获得,因此更像是一种可插拔的外部空间先验。论文还扩展了 nuScenes 数据集,通过 Google Maps API 检索地理图像,并将这些图像与自车轨迹对齐,形成 nuScenes-Geography 数据,用来系统评估这种空间检索范式。

它的亮点在于,不是单纯提升某一个自动驾驶模块,而是把地理检索信息接入多个核心任务。论文围绕 3D 目标检测、在线地图构建、占用预测、端到端规划和生成式世界模型建立基线,并设计了可插拔的 Spatial Retrieval Adapter,用于把检索到的地理图像融合进现有模型。雷峰网

同时,论文还引入 Reliability Estimation,根据检索信息本身的可靠性来自适应决定该信多少、用多少,避免错误或不匹配的地理信息干扰驾驶模型。

从项目页给出的结果来看,空间检索信息在多个任务中都能带来提升:在生成式世界模型中,加入地理图像可以降低 FVD 和 FID,减少场景漂移并保持几何一致性;在在线地图构建中,额外道路背景信息有助于恢复被遮挡的车道线;

在占用预测中,地理先验尤其能提升静态类别和地面区域的预测;在端到端规划中,地理先验可以补偿遮挡或低光条件下的感知失败,并在夜间复杂场景中把碰撞率从 0.55% 降到 0.48%。

02


从看见运动到学会行动

自动驾驶系统需要理解动态场景,而更基础的视觉能力之一,是在视频中稳定追踪点、物体和运动轨迹。《CoWTracker: Tracking by Warping instead of Correlation》由牛津大学视觉几何组和 Meta AI 共同提出。

研究的是视频中的 dense point tracking,也就是在一段视频中追踪任意像素点随时间变化的轨迹。这个任务对视频理解、机器人操作、光流估计等都很重要,但现有很多方法依赖 cost volume 做跨帧特征匹配,计算复杂度会随着图像分辨率呈平方级增长,因此在高分辨率、长视频和密集点追踪场景中很难高效扩展。

CoWTracker 的核心思路是用 warping 替代传统的 feature correlation / cost volume。模型不会在整张图里暴力搜索大量候选匹配,而是先维护每个点当前位置的估计,再根据这个估计把目标帧特征反向 warp 到查询帧附近,然后由 spatio-temporal transformer 联合更新轨迹、可见性和置信度。简单来说,它不是“到处找这个点在哪里”,而是“先猜一个位置,再反复把特征对齐并修正”。

论文地址:https://arxiv.org/pdf/2602.04877v1

它的亮点在于,把密集点追踪做得更简单、更高效,也更容易扩展到高分辨率视频。CoWTracker 不需要显式计算 cost volume,却能通过空间注意力和时间注意力同时建模同一帧中不同点之间的关系,以及同一个点在长时间序列中的运动变化。因此它可以处理长距离运动、大视角变化、遮挡和重新出现等复杂情况,还能输出每个点的轨迹、可见性和置信度。

从结果来看,CoWTracker 在 TAP-Vid-DAVIS、TAP-Vid-Kinetics 和 RoboTAP 等密集点追踪 benchmark 上表现很强,项目页给出的平均结果包括 Mean AJ 71.3、Mean δ_avg 81.8、Mean OA 93.3,高于 CoTracker 3 和 AllTracker 等方法。雷峰网

更有意思的是,同一个模型在不专门训练光流数据的情况下,也能在 Sintel、KITTI-2015 和 Spring 等光流 benchmark 上取得有竞争力的结果,例如在 Sintel 和 KITTI 上的 EPE 分别达到 0.78 和 1.04。

整体来看,这篇论文把密集点追踪从依赖昂贵相关匹配,推进到基于迭代 warping 和时空推理的统一框架,并说明 dense tracking 和 optical flow 有机会用同一种架构处理。

从“追踪运动”继续往前走,就是让模型根据视觉输入直接做出动作决策。《NitroGen: An Open Foundation Model for Generalist Gaming Agents》由英伟达、斯坦福大学、加州理工学院、芝加哥大学和德克萨斯大学奥斯汀分校合作完成。

论文研究的是面向游戏环境的通用智能体基础模型,也就是让一个模型能够在不同类型、不同机制的游戏中,根据画面观察直接输出游戏手柄动作,而不是只针对某一个游戏单独训练。

作者认为,具身智能长期缺少像视觉和语言模型那样的大规模预训练数据,强化学习虽然能在个别游戏中取得很强效果,但往往依赖专门模拟器和高成本训练;而现有行为克隆方法又受限于昂贵的人类示范数据,很难扩展到大量游戏。

NitroGen 的核心思路是利用公开视频中的游戏手柄 overlay 自动恢复玩家操作,从而构建大规模“视频—动作”数据集。很多游戏视频会在画面角落实时显示玩家按键和摇杆输入,NitroGen 先定位并裁剪这些手柄区域,再用模型解析摇杆位置和按键状态,最终从公开游戏视频中提取逐帧动作标签。

通过这种方式,作者整理出约 4 万小时、覆盖 1000 多款游戏的数据,并在此基础上训练统一的 vision-action transformer,用画面观察预测 gamepad actions。

论文地址:https://arxiv.org/pdf/2601.02427v1

它的亮点在于,把互联网上原本只是“给人看的游戏视频”转化成了可用于训练智能体的动作监督数据,从而绕开昂贵的人工采集和专门环境搭建。除了数据集,论文还构建了一个多游戏评测环境,包含 10 款商业游戏中的 30 个任务,覆盖战斗、导航、决策、平台跳跃、探索和解谜等能力,并通过统一的 Gymnasium API 封装不同游戏,让模型能在更真实的跨游戏环境中测试泛化能力。

从效果来看,NitroGen 在 3D 动作游戏战斗、2D 平台跳跃高精度控制、程序生成世界探索等任务中都表现出较强能力,并且能够迁移到未见过的新游戏。论文中提到,在相同数据和计算预算下,用 NitroGen 预训练权重进行微调,相比从零训练的模型,任务成功率最高可获得 52% 的相对提升。作者还开源了数据集、评测套件和模型权重。

整体来看,这篇论文把游戏智能体从“针对单个游戏训练专用策略”,推进到“利用互联网规模视频数据预训练通用视觉—动作基础模型”。它的意义不只在游戏本身,也在于为具身智能提供了一条新的数据路径:通过公开视频恢复动作监督,让模型从大量人类玩家行为中学习跨环境、跨任务的操作能力。

03


从单体控制到团队行为学习

如果说 NitroGen 关注的是一个智能体如何从视觉中学会行动,那么在人形控制和机器人协作中,更复杂的问题是多个智能体如何像团队一样协同完成任务。

由 Garena、Sea AI Lab,以及新加坡国立大学共同提出的《TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size》研究的就是多个人形智能体之间的协作式人—物交互问题,也就是让多个虚拟人或机器人一起搬运、抬起、移动物体,并且能够根据队伍人数和物体形状自动调整协作方式。

现有物理人形控制已经能完成不少单人动作和人—物交互任务,但一旦进入多人协作场景,就会遇到两个难点:一是很多策略只能适配固定人数,难以扩展到不同团队规模;二是高质量多人协作动作数据很少,模型很难学到自然、多样且物理合理的协同行为。

论文地址:https://arxiv.org/pdf/2603.07988

TeamHOI 的核心思路是训练一个统一的去中心化策略,让每个智能体基于自己的局部观测独立行动,但又能通过同一个策略网络感知队友状态并形成协作。

具体来说,TeamHOI 使用 Transformer-based policy network,把其他智能体的状态表示成 teammate tokens,让策略可以适配不同数量的队友,而不是像传统 MLP 那样被固定输入维度限制。这样,同一个策略就可以在 2 到 8 个智能体,甚至更多未见过的队伍规模中复用,而不需要重新训练或微调。

它的另一个关键设计是 masked Adversarial Motion Prior(masked AMP)。由于多人协作动作数据稀缺,论文仍然使用单人参考动作来约束运动自然性,但会在 AMP 监督中遮掉与物体交互的身体部位,让手部、接触和搬运动作更多由任务奖励来引导。

这样模型既能保持整体动作自然,又不会被单人动作数据过度限制,可以从单人参考动作中衍生出更多样的多人协作行为。论文还设计了不依赖队伍人数和物体形状的 formation reward,引导智能体围绕物体形成稳定队形,从而更平稳地抬起和搬运桌子。

这篇论文的亮点在于,它把多人协作从“固定人数、固定策略”的控制问题,推进到“任意团队规模下的统一协作策略”。在桌子搬运任务中,TeamHOI 能让 2 到 8 个智能体协同搬运方形、长方形或圆形桌子,并在普通重量设置下保持很高成功率。

主实验中,TeamHOI 在 2 人、4 人和 8 人设置下分别达到 99.1%、99.2% 和 97.5% 的成功率,而在 5 倍重量的重载设置下,8 人团队仍能达到 81.1% 成功率。相比之下,基线方法往往只能在训练时对应的人数上表现较好,一旦队伍规模变化就容易失败或不稳定。

TeamHOI 展示的是具体协作任务中的策略学习,而要让多智能体协作研究进一步发展,还需要更系统的任务集合、离线数据和统一评测标准。

《MangoBench: A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》由中山大学和香港理工大学共同提出,研究的是多智能体离线强化学习中的一个关键问题:

多个智能体如何在不能在线试错、只能使用已有数据的情况下,学会根据不同目标进行协作。现有离线多智能体强化学习方法往往依赖人工设计的奖励函数,但这类奖励函数对细微变化非常敏感,也很难让策略泛化到新目标;而单智能体中的目标条件离线强化学习虽然已经能缓解这个问题,但在多智能体协作场景中还缺少系统框架和统一评测基准。

论文地址:https://wendyeewang.github.io/MangoBench

MangoBench 是面向 goal-conditioned offline MARL 的第一个全协作、多目标基准。它覆盖 3 个环境、4 类智能体和 47 个协作任务,包括联合控制的运动任务,以及同步和异步的双臂操作任务。

论文还把目标条件学习扩展到多智能体场景中,同时支持完全去中心化训练和 CTDE 两种范式;在去中心化设置下,系统会把全局目标拆分成各个智能体可使用的局部目标,而在 CTDE 设置下,则把个体目标整合到统一全局目标中进行更强的价值学习,但执行时每个智能体仍根据自己的局部目标行动。

它的亮点在于,不只是提供一个任务集合,而是把“目标条件、多智能体、离线数据、稀疏奖励和多目标评测”统一到同一个框架中。MangoBench 包含 45 个 locomotion 任务和 2 个 manipulation 任务:在运动任务中,多个智能体分别控制同一个机器人身体的不同关节,共同完成 AntMaze、AntSoccer 等目标。

在操作任务中,两个机械臂需要完成 lift-barrier 和 place-food 等协作任务,其中既有同步协作,也有异步协作。论文还基于开放数据集转换出适合目标条件离线多智能体学习的数据格式,并为每个任务设计多目标评测,避免只在单一目标上评估导致结果偏差。

为了让这个基准真正可用,论文还提出了 6 个 baseline 算法,覆盖完全去中心化和 CTDE 两种训练范式,包括 GCMBC、ICRL、IHIQL、HIQL-CTDE、GCOMIGA 和 GCOMAR。

这些方法分别用于评估行为克隆、对比价值学习、层级策略、目标重标注和离线多智能体方法在稀疏奖励、多目标泛化和协作控制中的表现。实验表明,这些 baseline 在稀疏奖励下已经能展现一定的多目标泛化能力,但没有一种方法可以在所有任务中稳定占优,说明 goal-conditioned offline MARL 仍然是一个复杂且远未解决的问题。

这次去 CVPR 现场,一定不要错过

【认识大牛+赚外快】的机会

需要你做什么:把你最关注的10个大会报告,每页PPT都拍下来

你能获得什么?

认识大牛:你将可以进入CVPR名师博士社群;

钱多活少:提供丰厚奖金,任务量精简;

听会自由:你的行程你做主,顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。

如果你即将前往CVPR,想边听会边赚钱,还能顺便为AI学术社区做贡献、认识更多大牛,欢迎联系我们:[添加微信号:MS_Yahei]

限额5位,先到先得

]]> 人工智能 https://www.leiphone.com/category/ai/fMkWxfMZbW2XRxwK.html#comments Sat, 16 May 2026 21:26:00 +0800 CVPR 2026 视频模型趋势梳理:不止生成下一帧,更要理解下一步 https://www.leiphone.com/category/ai/cVsooEM3Y0eUAxHG.html 视频智能正从画面生成走向运动控制、动态建模、信号理解与真实场景应用。

    作者丨郑佳美

    编辑丨马晓宁

                                                                                                               

过去,视频生成更多是在解决“像不像”的问题:人物是否清晰,画面是否流畅,风格是否统一。但随着模型能力提升,视频真正困难的部分开始显现出来——它不是一组漂亮帧的连续播放,而是一个由时间、空间、运动、相机、光照和物理信号共同构成的动态系统。

只要模型无法理解这些隐含结构,它生成的视频就可能看似逼真,却在运动逻辑、视角一致性或真实场景适应上露出破绽。因此,视频智能正在进入一个更深的阶段:不只是生成画面,而是理解画面为什么会这样变化。

从运动轨迹编辑、3D 结构约束、可迭代文生视频,到自适应视频 token、长期运动表征、频闪去除、热成像分离和地球观测模型,研究者实际上都在处理同一个底层问题:如何让模型把视频从“像素序列”理解为“动态世界”。

这也是今年 CVPR 相关方向中一个值得注意的信号——视频模型的竞争重心,正在从视觉质量转向对时间、空间和物理规律的建模能力。

换句话说,视频 AI 的下一步,不是单纯把视频生成得更长、更清楚、更炫,而是让模型知道运动从哪里来、结构为什么稳定、信号如何形成,以及复杂场景中的变化如何被预测和控制。

当这些能力逐渐补齐,视频模型才可能真正从内容生成工具,走向能够理解、编辑和推演现实世界的动态智能系统。

01


从改画面到改运动

视频生成和视频编辑正在从“画面是否好看”,走向“运动是否可控”。谷歌和石溪大学共同提出的《MotionV2V: Editing Motion in a Video》研究的正是如何不只修改视频风格或局部外观,而是直接编辑视频里的“运动”。

比如让人物换方向、让物体晚一点出现,或在保留场景内容的同时改变镜头运动。现有方法一旦涉及物体运动、相机轨迹或时间顺序变化,就很难保留原视频后续帧中已有的内容。

MotionV2V 的核心思路是把视频运动表示成稀疏轨迹点,并让用户直接编辑这些轨迹。系统先从输入视频中提取物体或场景点的原始运动轨迹,用户再指定目标运动,模型根据“原始轨迹”和“目标轨迹”之间的差异生成编辑后的视频。论文把这种差异称为 motion edit,并用它指导视频扩散模型,在尽量保留原视频内容的同时,让目标物体或相机按新的方式运动。

论文地址:https://arxiv.org/pdf/2511.20640v1

它的亮点在于,MotionV2V 不是从单张图片重新生成视频,而是真正以完整输入视频为条件进行 video-to-video motion editing。因此它可以利用视频中任意时间点的信息,处理首帧里还没出现的物体,也能支持物体运动、相机运动、时间控制和连续多次编辑。

作者还构建了 motion counterfactuals,即内容相同但运动不同的视频对,用来微调 motion-conditioned video diffusion 架构。从论文对比来看,MotionV2V 在内容保留、运动控制和整体编辑质量上优于已有方法,用户研究中也获得约 70% 的偏好率。整体来看,这篇论文把视频编辑从“改外观”推进到“改运动”。

当运动编辑涉及相机、物体和非刚性形变时,仅靠 2D 运动线索往往不够。Adobe 和马里兰大学帕克分校共同提出的《Generative Video Motion Editing with 3D Point Tracks》进一步使用 3D point tracks 作为统一的运动控制表示,同时改变视频里的相机运动和物体运动。

系统会先估计输入视频中的相机参数和 3D 点轨迹,用户编辑相机运动或物体轨迹后,再由 video-to-video 生成模型合成新视频。

论文地址:https://arxiv.org/pdf/2512.02015v1

相比 2D 轨迹,3D 轨迹提供了深度信息,可以帮助模型判断遮挡关系、前后层次和真实空间运动。论文还设计了 3D track conditioner,通过 cross-attention 从输入视频中采样视觉上下文,并把这些信息对齐到目标帧空间中,让模型在改变运动的同时保持画面连贯。

由于真实世界中很难获得成对训练数据,作者采用两阶段训练:先用合成数据学习基础运动控制,再用真实单目视频构造非连续片段对,缩小合成到真实的差距。整体来看,这篇论文把视频运动编辑推进到更 3D-aware 的阶段,也支持运动迁移、非刚性变形、物体移除和复制等效果。

如果输入只有一张物体图像,模型如何在相机绕物体旋转时生成稳定、真实、结构一致的视频?澳大利亚国立大学和亚马逊共同提出的《Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors》研究的就是从单张物体图像生成 orbital video。现有视频生成方法在大角度视角变化时缺少可靠像素对应关系,容易生成结构扭曲或不合理的物体形状。雷峰网

论文地址:https://arxiv.org/pdf/2604.12309

这篇论文的核心思路是引入 3D foundation model 中学到的形状先验,用它辅助视频扩散模型生成更稳定的环绕视频。模型从单张输入图像中提取两类 3D latent features:全局 latent vector 提供整体结构指导,体积特征投影得到的 latent images 提供随视角变化的几何细节。

相比深度图或法线图,这些 3D latent features 能表达更完整的物体形状,也避免显式提取 mesh 的额外开销。作者还设计了 multi-scale 3D adapter,把不同尺度的 3D 特征接入基础视频模型,从而提升生成视频的真实感、物体形状合理性和多视角一致性。

谷歌和新加坡国立大学共同提出的《VISTA: A Test-Time Self-Improving Video Generation Agent》则把重点放在生成流程本身:当用户给出文本想法后,系统能不能反复评估、反思和修改,直到生成更符合意图的视频。

它研究的是 test-time self-improvement,也就是不重新训练视频生成模型,而是在推理阶段通过反复评价和改写 prompt 来提升结果。

VISTA 会先把用户想法拆成带有时间结构的场景计划,包括时长、角色、动作、对白、环境、相机、声音和情绪等要素;生成多个候选视频后,通过 pairwise tournament 选出当前最好结果;随后由视觉、音频和上下文评审智能体提出意见,最后由 reasoning agent 综合反馈并改写 prompt,进入下一轮生成。

论文地址:https://arxiv.org/pdf/2510.15831

它的亮点在于,VISTA 不是只优化某个指标,而是把视频规划、候选筛选、多维度评价和提示词重写串成自动闭环。论文中提到,VISTA 在自动指标下相较先进基线最高达到 60% 的 pairwise win rate,在人工评测中也获得 66.4% 的偏好率。整体来看,它把文生视频从“一次性生成”推进到“生成—评价—反思—再生成”。

02


让模型先学会「怎么动」

要让视频模型更好地生成和编辑内容,底层表示也需要更高效。上海交通大学、香港中文大学多媒体实验室、上海人工智能实验室 OpenGVLab、同济大学、清华大学共同提出的《AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space》研究的是视频 tokenization 问题,也就是如何把连续视频帧压缩成更适合自回归模型处理的离散 token。

论文地址:https://arxiv.org/pdf/2505.17011v2

AdapTok 的核心思路是让视频 token 分配变得自适应。它不是给每个时间段分配同样多的 token,而是根据视频内容、时间变化和整体预算,动态决定哪里多用 token、哪里少用 token。

它使用 1D latent token space 表示视频,并引入 temporal causality,让前面帧的编码和解码不依赖未来帧,更适合流式处理和自回归生成;同时通过 block-wise masking、block causal scorer 和 IPAL 策略完成自适应分配。

这样一来,运动明显、场景变化大的片段会获得更多 token,静态或冗余片段则使用更少 token。在 UCF-101 和 Kinetics-600 任务中,AdapTok 在不同 token 预算下都能提升重建质量和生成表现。

AdapTok 解决的是视频如何被高效表示,而 CompVis @ LMU、MCML 和苹果共同提出的《Learning Long-term Motion Embeddings for Efficient Kinematics Generation》进一步追问:如果只是理解未来怎么动,是否一定要完整生成像素视频。论文转向学习一种更紧凑的 long-term motion embedding,用来表示场景中的长期运动规律。

它从大规模 tracker 模型得到的轨迹数据中学习压缩运动空间,把稀疏轨迹和起始帧编码成 latent motion grid,并可在任意空间查询点上重建密集运动;随后在这个运动 latent 空间里训练 conditional flow-matching 模型,根据文本任务描述或 spatial pokes 生成长期运动。这种表示可达到 64 倍时间压缩,也就是说模型不用逐帧生成视频,就能在更抽象的运动空间中推断未来动态。

论文地址:https://arxiv.org/pdf/2604.11737

这篇论文的亮点在于,它把“生成视频”拆成了更基础的“生成运动”。这种 kinematics-first 方式更适合探索多个可能未来,也更适合机器人规划、轨迹预测和长期动态建模。

在开放域互联网视频和 LIBERO 机器人基准上,它的运动生成质量、条件遵循能力和效率都优于专门轨迹预测方法以及 Wan、Veo 3 等视频模型基线。整体来看,AI 不一定要先“画出未来”,也可以先学会“未来应该怎么动”。

03


从修复画面到理解信号来源

除了生成和编辑,视频与图像研究也在关注如何从复杂成像退化中恢复可靠信息。南开大学国际先进研究院、鹏城实验室、南开大学计算机学院、香港理工大学、OPPO 研究院共同提出的《It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal》研究的是短曝光连拍图像中的 flicker artifact 去除问题。

这类退化由人工光源频闪和 rolling shutter 共同造成,表现为条纹状、明暗不均的闪烁,不能简单当作普通噪声或低光增强处理。

Flickerformer 的核心思路是利用闪烁退化的周期性和方向性。周期性来自交流电光源亮度变化,方向性与相机逐行扫描机制有关。针对这两个特点,Flickerformer 设计了 PFM、AFFN 和 WDAM 三个模块,分别用于帧间相位相关融合、单帧自相关建模,以及小波域方向性高频修复。雷峰网

论文地址:https://arxiv.org/pdf/2603.22794v1

它的亮点在于,把频闪本身的物理先验嵌入网络结构里,而不是把 flicker removal 当成普通图像增强任务。在 BurstDeflicker benchmark 上,Flickerformer 超过多种图像复原和 burst restoration 方法,取得 31.226 PSNR、0.920 SSIM、0.045 LPIPS。整体来看,这篇论文让模型能够更准确地去除条纹闪烁,同时保留细节并减少重影。

类似思路也出现在热成像研究中。CMU 提出的《Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions》研究的是热成像中的发射 / 反射分离问题。

热相机看到的长波红外信号既可能来自物体自身热辐射,也可能来自周围环境反射;在接近室温的日常场景中,这两部分信号强度接近且都会随时间变化,因此很难判断亮暗变化到底来自物体温度变化,还是背景反射。

论文地址:https://arxiv.org/pdf/2509.11334

论文提出 dual-band thermal videography,用两个长波红外子波段视频分离“物体自身发射”和“背景反射”。它同时利用光谱线索和时间线索:同一材料在两个波段中的发射率比例相对固定,而物体热传导变化通常更平滑、背景反射变化更快。

实验中,方法能把咖啡壶升温时的热发射与旁边移动人物的反射分开,也能区分玻璃板上的手指热印和手指反射。在酒杯和咖啡壶视频中的非校准温度估计误差分别约为 1.72% 和 5.34%。整体来看,这篇论文把热成像从“看到温度分布”推进到“理解热信号来源”。

04


让视觉模型进入真实世界任务

当视觉模型进入遥感和地球观测场景时,问题会比普通图像更复杂:模型不仅要处理图像,还要同时理解时间序列、多源数据和地图标注。艾伦人工智能研究所、华盛顿大学、亚利桑那州立大学、不列颠哥伦比亚大学联合提出的《Helios: Stable Latent Image Modeling for Multimodal Earth Observation》研究的是面向地球观测数据的多模态基础模型。

地球观测数据既有图像空间结构,也有类似视频或文本的时间序列特征,还包含卫星影像、地图、地形、作物、土地覆盖等多种模态。

这篇论文提出的模型叫 OlmoEarth,目标是让地球观测基础模型更稳定、更高效,也更容易落地到环保、人道主义和公共利益相关任务中。它不只训练模型,还配套构建端到端平台,用于数据收集、标注、训练和推理,降低真实组织使用前沿地球观测模型的门槛。

论文地址:https://arxiv.org/pdf/2511.13655

OlmoEarth 的核心方法是 Latent MIM Lite。它用随机初始化、训练中冻结的线性投影层,把图像 patch 投到 token 空间作为预测目标,在保留 latent modeling 表征能力的同时提升训练稳定性。这个设计还把自监督数据和带标注地图数据统一到同一个 token 空间里,让模型可以用相同损失学习观测数据和标签地图。

针对遥感数据空间、时间和模态高度冗余的问题,OlmoEarth 采用 modality-aware masking,让模型必须从其他时间、空间或模态中推断缺失信息;同时只在同一 bandset 内进行 token 对比,避免大量“太容易”的负样本削弱训练效果。

综合评估中,OlmoEarth 与 12 个其他基础模型相比,在 embedding 评估中于 24 个任务里的 15 个取得最好表现;在 full fine-tuning 设置下,于 29 个任务里的 19 个取得最好表现。整体来看,这篇论文为地球观测任务提出了一个更稳定、更开放、更面向真实应用的多模态基础模型体系。

这次去 CVPR 现场,一定不要错过

【认识大牛+赚外快】的机会

需要你做什么:把你最关注的10个大会报告,每页PPT都拍下来

你能获得什么?

认识大牛:你将可以进入CVPR名师博士社群;

钱多活少:提供丰厚奖金,任务量精简;

听会自由:你的行程你做主,顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。

如果你即将前往CVPR,想边听会边赚钱,还能顺便为AI学术社区做贡献、认识更多大牛,欢迎联系我们:[添加微信号:MS_Yahei]

限额5位,先到先得

]]> 人工智能 https://www.leiphone.com/category/ai/cVsooEM3Y0eUAxHG.html#comments Sat, 16 May 2026 21:23:00 +0800 CVPR 2026 四篇论文透视:大厂如何靠「算法瘦身」对抗算力涨价? https://www.leiphone.com/category/ai/y7bk8TpnoiBUFqSP.html 2026年,大厂们不再比谁的GPU多,而是比谁的算法更聪明。

    作者丨陈淑瑜

    编辑丨岑   峰

                                                                                                               

一个在2026年越来越难以回避的问题是:如果H100全面断供、电费账单直线飙升、训练一次大模型的成本足以买下一家创业公司,大模型的故事还讲得下去吗?

也许顶级学术会议的论文能给大家一个新的启发。

今年的CVPR收到了四千余篇投稿,其中一个清晰的信号正在浮现:大厂不再比拼GPU数量,而是较量如何把GPU用得更好。算力封锁之下,算法正在成为新的护城河。

在论文的汪洋中,字节跳动Seed团队是出手最密集的玩家之一。

AI 科技评论聚焦四篇来自字节跳动的论文——TEMF、Beyond Token Eviction、Mixture-of-Depths Attention和GenieDrive。它们全都围绕一个核心命题展开:当算力不再能够"暴力"解决,算法如何接棒?

这四篇论文覆盖了一条完整的链条:从生成模型的采样步数压缩,到推理过程的显存瘦身,再到注意力计算资源的动态分配,最终延伸到端侧部署的物理感知。它们是Seed团队围绕"算力降本"这一命题打出的组合拳。

01

采样降速:一步生成的尺度跨越

大模型的推理成本,很大程度上藏在采样步数里。

以Stable Diffusion为代表的多步迭代生成,一个看似简单的512×512图像,背后可能是50到100次神经网络前向传播。训练时模型学到的是“每一步该怎么加噪”,但推理时模型需要做的是“每一步该怎么去噪”,这两个过程天然不对称,训练目标与推理目标之间存在一道看不见的裂缝。

传统MeanFlow的尺度差距问题正源于此:一步生成的质量始终无法与多步采样竞争,而多步采样意味着成倍增加的算力消耗。

字节跳动Seed团队提交的TEMF(Temporal Equilibrium MeanFlow)正是对这一困境的直接回应。

TEMF的核心设计是让模型在训练阶段就同时学习“从数据到噪声”和“从噪声到数据”的双向变换,而非像传统归一化流那样只学习单向映射。

双向建模的效果立竿见影,模型在训练时就熟悉了反向采样的路径,推理时不依赖多步迭代来逐步精炼,可以直接从噪声出发、在单次前向传播中完成整个生成过程

这种从百次计算到一次计算的跨越,在实际部署中带来的成本削减是数量级的。

论文地址:

https://cvpr.thecvf.com/virtual/2026/poster/39823

有意思的是,这道裂缝的修补并非只有一种解法。同期Meta发表的Improved Mean Flows从原理层面分析了快转发声模型训练与推理不对称的根源,并提出了自己的改进框架。(Improved Mean Flows的论文解读可阅读:何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026

论文地址: https://arxiv.org/abs/2512.02012

两支独立团队在几乎同一时间节点做出了相似的技术判断—— 一步生成不是天方夜谭,关键在于弥合训练与推理之间的结构性裂缝。这是行业共识正在形成的信号。

02

显存瘦身:KV Cache的精准压缩

如果说TEMF解决的是计算次数的问题,那么另一篇字节跳动Seed团队的工作Beyond Token Eviction,则直指推理过程中另一个更隐蔽的成本中心:显存占用

理解KV Cache的机制,是理解大模型推理成本的关键切口。

当大语言模型处理一段文本时,它需要记住此前所有词元的信息才能生成下一个词元。每一个经过注意力计算的词元,都会在显存中留下一组对应的向量,这些向量是模型“上下文记忆”的物理载体。

问题在于,这种“记忆”是只增不减的。当上下文窗口从4K扩展到32K、再到100K,KV Cache的显存占用也在同步膨胀。

一个有100K上下文窗口的模型,仅KV Cache就可能消耗40到60GB的显存,而消费级显卡的显存上限不过24GB,就连专业级A100也不过80GB。也就是说,在不远的将来,显存瓶颈会比计算瓶颈更早到来。

传统解法“Token Eviction”是在显存压力过大时,将一部分“不那么重要”的旧Token驱逐出去,释放空间给新的Token。

而Beyond Token Eviction的突破则在于“混合维度预算分配”策略。它不再将Token的存留视为非此即彼的二元判断,而是允许不同Token拥有不同的“精度维度”指标。重要的Token保留更高的维度,从而完整存储其语义信息;不那么关键的Token被压缩到更低的维度,以更少的空间保存其核心语义。

这种“混合维度”策略的本质是对信息做“有损压缩”而非“彻底删除”。被压缩的Token仍然保留着足够用于后续推理的语义信息,而模型通过训练学会了“自适应地”判断哪些Token值得高精度、哪些可以接受低精度。

系统不再需要在“全部保留”和“全部丢弃”之间做选择,而是在精度与效率之间找到了一个可调的平衡点。

用于KV缓存压缩的双阶段尺寸分配流程

更难得的是,这套方案无需对模型进行任何重训练。云厂商可以直接将它部署在现有推理框架上,以工程侧的轻量改动换取显存占用的大幅下降。

论文地址:https://arxiv.org/pdf/2603.20616

这正是当前大厂在降本路径上最务实的选择:在既有架构上做“微创手术”,以最小的动作提升更高的效率。

03

计算平等:让模型自己分配算力

采样步数降了,显存空间省了,但字节在注意力计算的效率问题上也没有闲着。他们的Mixture-of-Depths Attention,从计算资源分配策略的维度提供了一种正交解法。

传统Transformer在处理每个Token时,都会执行完整的注意力计算。这意味着,即使某个Token在当前语境下的语义贡献微乎其微,它仍然会消耗与其他Token同等的计算资源。这种“一视同仁”的计算策略,本质上是一种隐性的算力浪费。

新的思路由此出发:并非所有Token都需要被“深度处理”。它引入了一种动态路由机制,让模型在运行时自主决定——哪些Token值得走完整的注意力计算路径,哪些Token可以被引导至更轻量的快速路径。

混合深度注意力机制MoDA

结果随之而来:系统层面的有效计算量显著下降,但模型输出的质量并未等比例衰减。真正重要的Token仍然得到了充分的计算资源,而大量“搭便车”的Token被引导至旁路。

这种“让模型自己判断轻重缓急”的思路,代表了算法层面“降本增效”的一种优雅路径。这与混合专家(MoE)模型的设计哲学一脉相承,但不是整个模型层的专家切换,而是在每个注意力层做细粒度的资源调度。

模型在训练过程中学会动态分配计算预算,而非通过硬编码的稀疏规则强行削减计算量——好钢用在刀刃上,这是2026年算法工程师们最希望模型学会的本事。

论文地址:https://arxiv.org/pdf/2603.15619

04

端侧部署:物理感知驱动的世界模型

上述三篇工作几乎都在回答同一个问题:如何在有限的算力约束下,让模型跑得更快、占得更少。但字节跳动在GenieDrive这篇工作中,提出了一个更远见的问题:高效模型在端侧能做什么?

自动驾驶的视觉感知系统,一直是算力军备竞赛的重灾区。传统自动驾驶的感知系统依赖多传感器融合,各司其职又彼此冗余,在算力有限的嵌入式平台上捉襟见肘。

GenieDrive把这个问题拆解得更深了一层。它搭建了一种“物理感知驱动的4D占用引导视频生成”框架,不再将视觉感知视为一个“看懂图像”的问题,而是将其视为一个“理解物理世界如何运转”的问题,不仅让模型生成视觉上逼真的驾驶场景视频,还让模型具备对物理规律的基本理解,比如运动物体的轨迹遵循物理动量、遮挡关系遵循空间一致性、光照变化遵循物理反射模型。

这种设计的直接效果是:GenieDrive生成的是一个“物理上可信的4D模拟环境”。

当这个模拟环境可以直接服务于下游的轨迹规划和决策控制时,端侧模型的商业价值就超越了单纯的速度竞赛。比如说如果模型能够准确预测“两秒后前方车辆会因为惯性继续滑行两米”,这个信息对于紧急制动的决策价值,远高于“那个地方有一辆车”的语义标签。

值得注意的是,GenieDrive的高效性并不来自单一算法的突破,而是来自“4D表示+物理先验+端到端联合优化”的协同设计。它代表了2026年大厂在高效视觉表征上的另一条路径:让模型“想得更少、做得更准”。

论文地址:

https://www.paperdigest.org/paper/?paper_id=cvpr-36900-2026-04-21

05

结语:算法天才的元年

纵观字节跳动Seed团队在CVPR 2026上这四篇论文,一个清晰的叙事正在浮现:算力封锁并没有杀死创新,反而催生了一种更精致的工程哲学。

TEMF用“时间均衡”弥合了训练与推理的结构裂缝,让一步生成从不可能变成了工程现实;

Beyond Token Eviction用“混合维度”重新定义了信息的取舍策略,让显存压缩从粗暴删除变成了精细调控;

Mixture-of-Depths让计算资源学会了「按需分配」,让模型自己成为计算预算的聪明管家;

GenieDrive则将高效表征引向了物理可解释的端侧应用,让速度竞赛升维为智能竞赛。

这四条路径指向同一个结论:2026年不是“大模型时代的终结”,而是“聪明模型时代的元年”。当暴力堆砌算力的路径变得不可持续,那些能够用更少资源做更多事情的算法天才,正在成为这个时代最稀缺的人才。

对于CTO和云厂商而言,字节的这组论文给出了一个清晰的信号:与其等待下一代芯片的算力提升,不如今天就拥抱这些算法优化带来的降本红利。

对于软硬件开发者而言,这意味着新的机会窗口正在打开:适配ELSA这类硬件无关内核的编译器优化、基于动态注意力路由的模型压缩工具、面向4D物理感知模型的端侧部署框架,每一个环节都是尚未被充分开采的富矿。

算力封锁的本质是一道经济命题,但它的解法,最终要靠算法给出。

雷峰网

]]> 人工智能 https://www.leiphone.com/category/ai/y7bk8TpnoiBUFqSP.html#comments Fri, 15 May 2026 17:43:00 +0800 独家丨华为、联想、富瀚微罕见「同框」,00后空间智能创业者连续获得两轮融资 https://www.leiphone.com/category/ai/P1qQacTDnhEIunZu.html   4D基座世界模型的 Scaling Law 呈线性可预测提升

    作者丨齐铖湧

    编辑丨马晓宁

                                                                                                       

据AI科技评论独家获悉,魔芯科技近日正式完成新一轮近亿元融资。本轮由富瀚微股份、联融志道(联想控股旗下基金)、浙创投联合投资,老股东跟投。叠加一个月前华为哈勃领投的Pre-A+轮,魔芯科技在近两个月内已连续拿到两轮近亿元融资。

魔芯科技的投资方目前包括,华为哈勃(算力底座)、富瀚微(核心视觉芯片)、联想控股(智能终端+产业支持)、浙创投(国资产业资本),是一个产业链关键节点+场景落地+产业生态+国资背书的完整逻辑链条。其创始人陈天润为00后浙大在读博士生,师从中国工程院院士、原浙江大学校长潘云鹤。(可参考《做了5年3D打印机,我发现了世界模型的Scaling Law | 00 后创业者系列》一文)

2025 年 11 月,魔芯科技参与研究揭示了其 4D 世界模型空间智能模型能突破现有 VLA(具身视觉 - 语言 - 动作模型)的能力上限的研究论文,已被 CVPR2026 接收。2025 年 12 月,公司在华为(杭州)培训中心发布了交互式视频世界模型「KOKONI-World」原型,用户可以在虚拟空间进行数分钟级、全高清 (1080p) 的实时交互,在多项关键指标上达到行业领先水平。

目前世界模型的主流路线可大致分为,以李飞飞所创立的World Labs为代表的一类"3D原生"路线,用高斯点云+扩散模型构建持久3D环境;Google Genie 3选择自回归Transformer架构,将世界模拟转化为序列预测问题,拥有110亿参数;杨立昆的AMI Labs坚持JEPA(联合嵌入预测架构),认为只有让AI具备物理常识和预测能力,才能真正通向AGI。

魔芯科技采用的是纯隐式空间表示,可以让AI在"脑海中"直接构建一个完整的空间认知模型,不需要中间表示,直接从数据中学习空间的几何结构和物理规律。(雷峰网)

这套路径的优势在于找到了空间智能的“Scaling维度”:,当训练数据在"视角覆盖、时序跨度、场景多样性"等维度扩展,同时模型容量与算力同步增长时,重建的几何一致性、细节完备度以及对空间关系的理解能力呈现可预测提升。这意味着,魔芯科技的 4D 世界模型和大语言模型一样,存在"大力出奇迹"的可能性。

图:实验结果,随着数据量的增加(左图)和模型尺寸提升(右图),模型精度持续提高(误差降低)

目前,芯在三个关键领域取得了系统性突破:动态4D场景前馈式重建(输入视频,直接输出带时间维度的三维场景即 4D 动态空间,无需逐帧优化)、长序列连续空间建模(让AI记住场景的长期状态,而不是"看完就忘")、高分辨率前馈三维重建(单次推理即可生成高精度3D模型)。其4D基座模型已经在VLM(视觉语言模型)问答、VLA(视觉语言动作)操作等领域证明了价值,模型规模超过100亿参数,在重建精度和动态支持上已进入行业第一梯队。(雷峰网)

]]> 人工智能 https://www.leiphone.com/category/ai/P1qQacTDnhEIunZu.html#comments Wed, 13 May 2026 17:45:00 +0800 无界关怀,GReAT 2026共议具身康养未来 https://www.leiphone.com/category/ai/VtU0MaEGqS3Kw5DN.html 2026年5月13日,全球智能康复与机器人技术峰会(GReAT 2026)在上海张江机器人谷举行。本次大会以“无界关怀:突破康复边界,走向真实应用”为主题,汇聚了近百位来自全球临床康复与机器人领域的顶尖专家、行业领袖与合作伙伴,围绕机器人技术、人工智能与物联护理系统等前沿方向展开深入交流,探索康复向全周期、持续性服务转型的路径,推动前沿机器人技术走向真实应用场景。

大会期间,傅利叶分别与新加坡国立医疗集团(NHG Health)和日本顶尖研究机构名古屋大学签署战略合作协议,进一步深化全球具身康养创新合作,加速康复与机器人技术的临床转化。

其中,傅利叶与NHG Health自2021年首次建立战略合作以来,已开展多项合作。2025年9月,双方联合新加坡AI健康初创公司injewelme在SHBC上对外发布了共同主导的实验性项目成果,将傅利叶GRx人形机器人与远程光体积变化描记图法(rPPG)相结合,通过GR-2搭载的视觉系统扫描面部信息,使用者可实时测量血压、心率、脉搏等生命体征。

此次续签战略合作协议,双方将围绕三大方向展开合作:共同建立联合康复创新中心,推动先进个性化康复技术的应用;联合开发可规模化的机器人临床应用验证;持续推动区域及国际层面的知识交流,加速联合创新成果的全球转化。

NHG Health旗下陈笃生医院康复医学科主任兼高级顾问Loh Yong Joo副教授表示:“此次续签是推动康复创新真正走向临床实践的重要里程碑。通过结合NHG Health的临床洞察与傅利叶的工程技术优势,我们希望加速开发和推广能够真正为患者带来疗效价值的康复解决方案。”

傅利叶与新加坡国立医疗集团签署战略合作协议

同时,傅利叶还与名古屋大学达成战略合作,双方基于傅利叶ArmMotus EMU三维上肢康复机器人开展肌肉协同分析研究,共同开发下一代康复解决方案,推动科研成果向临床应用转化。此次合作将成为傅利叶进一步拓展日本市场的重要契机。

傅利叶与名古屋大学签署战略合作协议

在开幕致辞环节,傅利叶创始人兼CEO顾捷分享了“主动式人机交互”技术路线及软硬一体的主动交互式智能机器人技术平台。他表示,傅利叶正推动机器人技术向“以人为本”的智能体发展,并在今年1月的生态大会上首次提出“脑机具身智能康复港”概念,让机器人可以更早地理解意图、更准确地参与协作,推动康复效率和效果的系统性提升。“我们非常荣幸能够与全球伙伴共同推动具身智能在康养场景的落地,构建无界关怀的未来。”(雷峰网)

大会现场,傅利叶还向各国来宾演示了脑机接口与傅利叶下肢外骨骼机器人的结合应用,将实时采集的脑电信号转化为指令,驱动机器人带动下肢步态训练,重建神经通路,实现“中枢-外周-中枢”的闭环反馈。在此基础上,傅利叶提出脑机具身智能康复港概念,将脑机与具身智能相结合,让康复治疗第一次具备真正从“大脑意图出发”的闭环能力。

脑机接口结合下肢外骨骼机器人应用

傅利叶康复海外业务部总经理Owen Teoh表示:“‘无界关怀’意味着无论患者身处何地、何种医疗体系或康复阶段,都能够获得高质量的康复服务。我们坚定携手全球合作伙伴,不仅是拓展业务版图,更是在延伸康复服务的边界,将最前沿的机器人技术带入临床,赋能人类获得高质量且有温度的健康生活。”

大会期间,多位国际知名科研学者与临床专家围绕康复机器人、脑机接口及人工智能等方向分享了前沿研究成果与行业洞察。

芝加哥康复中心下肢机器人技术研究所科研主席José Luis Pons教授围绕机器人在康复中的角色重构,探讨人工智能体如何患者、治疗师开展交互式训练。苏黎世联邦理工学院运动与感官系统实验室主导人Robert Riener教授分享了人工智能与机器人技术对康复模式的重塑。

伦敦帝国理工学院神经康复工程系主任Dario Farina教授介绍了关联式脑机接口研究进展,通过诱导神经可塑性促进卒中康复,相较于传统方案具有更显著的临床有效性。名古屋大学大学院医学系研究科特聘教授Shingo Shimoda教授使用EMU三维上肢康复机器人开展肌肉协同分析研究,提出了一种基于肌电信号驱动的训练范式。

新加坡陈笃生医院Loh Yong Joo副教授分享了康复机器人从医院到社区的应用延伸与转化。香港理工大学康复治疗科学系科研副主任Kenneth Fong教授则介绍了面向卒中后上肢功能恢复的居家康复技术。

GReAT 2026不仅促成了新的国际合作,更进一步凝聚了全球康复行业对于“无界关怀”理念的共识。未来,傅利叶将继续坚持以人为本,以技术创新驱动行业发展,携手全球临床专家、科研机构与产业伙伴,共同推进具身康养的临床转化与真实场景应用。(雷峰网)

]]> 人工智能 https://www.leiphone.com/category/ai/VtU0MaEGqS3Kw5DN.html#comments Wed, 13 May 2026 17:40:00 +0800 从「座上宾」到「主战场」:具身智能如何完成对计算机视觉的「范式夺权」?| CVPR 2026 https://www.leiphone.com/category/ai/HjikQc8qSRrbSlIL.html 当机器从识别图像走向介入现实,视觉研究的边界也被重新划定。

    作者丨郑佳美

    编辑丨马晓宁

                                                                                                               

如果您漫步在 CVPR 2026 的会场,会产生一种强烈的错觉:自己是不是跑错了场馆,误入了 ICRA 或者 IROS 的现场?满屏的机械臂抓取、足式机器人的越野导航、以及在虚拟沙盒中进行千亿次迭代的物理模拟。

具身智能(Embodied AI)已经不再是视觉领域的一个“边缘分支”,而是以一种占据主舞台的姿态,成为视觉顶会最难被忽视的叙事之一。

这种范式的易位,让人们不禁回想起 2017 年机器人学界的顶级盛会 IROS。当时,机器人专家们打破了固守多年的运动学控制圈层,邀请计算机视觉泰斗、ImageNet 奠基人李飞飞做主题演讲。

在那个时刻,视觉对于机器人而言,更像是一个“尊贵的外部插件”:机器人学是主,计算机视觉是客。机器人真正的知识核心,仍然是运动学、动力学、控制、规划、执行器和系统工程;视觉负责把外部世界翻译成机器人能够使用的状态信息,却并不真正决定机器人学的问题边界。

九年之后,机器人和计算机视觉的融合已进入新的里程碑。在计算机视觉领域,我们甚至可以看到具身智能“反客为主”的表现。

这种“反客为主”,并不是说机器人论文在视觉顶会中数量变多了,也不是说 CVPR 正在变成另一个 ICRA 或 IROS。真正重要的是,具身智能正在改变计算机视觉判断自身价值的方式。

过去,视觉研究的中心问题是:机器如何从图像中提取语义,从视频中理解事件,从多视角中还原三维结构。今天,具身智能把问题推进到了另一层:视觉系统不仅要看懂世界,还要支持一个智能体进入世界、改变世界,并在行动反馈中重新校正自己对世界的理解。

这才是所谓“范式夺权”的本质。一个方向真正完成“夺权”,从来不是靠论文数量取胜,而是靠重新定义整个领域的问题入口、评价标准和技术路线。

如果说过去的计算机视觉是在屏幕中理解世界,那么具身智能正在迫使它走出屏幕,在真实空间、真实物体和真实动作中重新证明自己。

01

Ted Xiao「三大时代」里的具身智能拐点

要理解具身智能为什么会在 CVPR 2026 中形成如此强的存在感,不能只从这一届会议本身看起。更准确的切口,是 Ted Xiao 对机器人学习过去十年发展的三阶段复盘:存在性证明时代、基础模型时代和 Scaling 时代。

这个框架之所以重要,是因为它解释了一个关键问题:具身智能并不是突然进入计算机视觉中心的,而是在机器人学习自身演进到某个阶段之后,必然开始向视觉研究索取更深层的能力。

换句话说,CVPR 2026 所呈现出的变化,不是一个会议热点的偶然轮换,而是机器人学习从控制问题、数据问题,进一步演变成世界理解问题后的自然结果。

第一个阶段是存在性证明时代。这个阶段的核心问题是:端到端的数据驱动方法到底能不能在真实机器人上工作?强化学习能不能控制机械臂?模仿学习能不能完成抓取?真实硬件采集的数据能不能训练出稳定策略?

这一时期的机器人学习还带有很强的“实验室证明”色彩。研究者需要先证明,深度学习不只是能在 Atari、围棋和图像分类中奏效,也能面对真实世界中连续、高维、噪声极强的物理系统。

在这个阶段,视觉当然重要,但它更多是机器人系统中的输入模块。机器人需要视觉来感知物体位置、场景状态和外部环境,但机器人学习的主要压力仍然来自控制稳定性、硬件误差、样本效率、数据采集成本和真实环境不确定性。视觉是必要条件,却还不是范式重组的中心。

第二个阶段是基础模型时代。随着大语言模型、视觉语言模型和多模态大模型的发展,机器人学习开始发生第一次重要转向。机器人不再只是学习某个单一技能,而是开始吸收互联网规模数据中形成的语义理解能力。

它不仅要知道机械臂如何移动,还要理解“把红色杯子放到盘子旁边”这样的自然语言指令;不仅要识别物体,还要理解开放词汇、空间关系、任务意图和人类常识。

SayCan、RT-1、RT-2 这类路线的意义正在于此。它们并不只是让机器人“听懂更多话”,而是让视觉、语言和动作第一次被压进同一个建模框架中:语言给出目标,视觉理解状态,模型生成动作,动作改变世界,世界反馈又回到视觉输入之中。

到了这个阶段,计算机视觉和机器人学习的关系已经开始变化。机器人对视觉的需求,不再只是“帮我看见物体在哪里”,而是“帮我理解一个开放世界,并把这种理解转化为行动”。这已经不是传统意义上的视觉模块调用,而是对视觉研究提出了更高层的要求。

第三个阶段是 Scaling 时代。也正是在这个阶段,CVPR 的位置变得不可替代。因为一旦机器人学习进入规模化,它需要的基础设施几乎全部与计算机视觉深度绑定:

它需要从海量视频中学习人类动作和物体交互,需要用 3D 场景理解支撑空间推理,需要用世界模型预测动作后果,需要通过仿真和合成数据弥补真实机器人数据的稀缺,需要把语言目标映射到视觉状态和动作序列,也需要在长程任务中维持对场景、记忆和目标的持续理解。雷峰网

这就是为什么具身智能会在 CVPR 2026 中显得像一次集中爆发。机器人学习早期更像是在解决“能不能让机器人动起来”;基础模型时代开始解决“能不能让机器人理解指令和场景”;而到了 Scaling 时代,真正的问题变成了“能不能让机器人在开放世界中规模化地学习、泛化和行动”。

这个问题已经不再是机器人学单独能够完成的,它必须借助计算机视觉在视觉表征、视频理解、三维重建、多模态对齐、生成建模和世界建模上的长期积累。因此,Ted Xiao 的三大时代复盘实际上揭示了这场“范式夺权”的历史条件:只有当机器人学习进入 Scaling 阶段,视觉才会从机器人系统中的外部插件,变成物理智能的底层基础设施。

02


三重「夺权」:

问题、标准与路线的重写

有了 Ted Xiao 的时间线,再回到 CVPR 2026,很多现象就不再显得孤立。

VLA、机器人操作、移动导航、人形机器人、世界模型、Sim2Real、物理仿真、3D 空间智能和自动驾驶等主题集中出现,并不是多个热点并排爆发,而是同一条范式迁移链路在视觉顶会中的集中显影。

过去,CVPR 的很多核心任务可以被理解为从视觉输入到视觉表征的映射:图像到类别,图像到框,图像到 mask,图像到 depth,图像到 3D,视频到事件,文本到图像。

具身智能则要求建立一条更长的链路:视觉输入进入语言理解,语言目标进入任务规划,任务规划进入动作生成,动作结果回到视觉反馈,反馈再更新模型对世界的判断。

这条链路一旦成为主流,计算机视觉的研究对象就会发生变化。图像不再只是被理解的对象,而是行动决策的起点;视频不再只是时间序列,而是动作、变化和因果后果的载体;三维重建不再只是几何恢复,而是智能体导航、操作和交互的空间底座;生成模型不再只是为了生成逼真的内容,而是要生成可用于训练、预测和评估行动策略的世界。

这就是 CVPR 2026 的标志性意义。它不是具身智能第一次出现在视觉顶会中,却可能是具身智能第一次如此清晰地改变视觉顶会的叙事重心。过去,机器人是视觉技术的应用场景;现在,机器人问题开始成为视觉研究重新定义自身的一面镜子。

而所谓具身智能的“范式夺权”,正是从这里开始的:它首先改变了计算机视觉的问题定义。

传统计算机视觉最常问的是:这是什么?它在哪里?这个场景如何重建?这段视频发生了什么?这些问题共同指向一个目标:让机器更好地表征世界。

具身智能把问题改写了。一个机器人看见桌上的杯子,任务并不会停在“识别这是杯子”。它还要判断杯子的重心、材质、杯柄朝向、可抓取区域、周围障碍物、机械臂运动路径,以及拿起之后世界状态会如何改变。也就是说,具身智能真正问的是:我能对它做什么?

这一步改变了视觉研究的底层对象。物体不再只是类别标签,而是可抓取、可推动、可打开、可阻挡、可支撑的实体;空间不再只是几何结构,而是可导航、可探索、可交互的任务场;视频不再只是时间序列,而是动作、变化和因果后果的线索。

问题一旦被改写,评价标准也会随之变化。传统视觉的成功大多建立在离线数据集上:分类看准确率,检测看 mAP,分割看 IoU,重建看误差,生成看保真度和语义一致性。具身智能带来的标准更苛刻:模型“看对了”并不等于任务成功。

机器人识别出了杯子,但抓取失败,视觉理解仍然不够;模型重建出了房间,但机器人无法安全导航,空间表征仍然不够;视频生成看起来逼真,但不能预测动作后果,世界模型仍然不够。

所以,具身智能把评价标准从“输出是否正确”,推向“行动是否有效”。计算机视觉过去可以在视觉空间内部自洽,现在则必须接受物理世界的检验。

当问题定义和评价标准都发生变化,方法路线也会被重写。VLA 模型之所以重要,并不是因为它把 Vision、Language、Action 三个词放在一起,而是因为它重建了智能系统的基本接口:人类用语言表达目标,机器人通过视觉理解当前世界,再把语言目标和视觉状态转化为动作序列。

世界模型和物理仿真解决的,则是行动之前的后果预测。机器人拿起杯子,桌面状态会改变;推开箱子,路径可达性会改变;打开抽屉,新的物体会出现。如果视觉模型不能推演这些变化,它就很难支撑规划。

3D 空间智能也因此被重新赋予意义。过去,三维重建关注几何是否准确、纹理是否真实;现在,具身智能要求三维世界是可行动的:哪里能走,哪里能抓,哪里会撞,哪里需要探索。

这就是具身智能对计算机视觉方法路线的重写。它把视觉模型从“感知器”推向“行动系统的一部分”,把 3D 从几何恢复推向空间决策,把视频生成从内容合成推向物理预测,把多模态模型从视觉问答推向任务执行。

而学术范式的变化,最终还需要产业现实来确认。过去,计算机视觉的产业化多发生在相对可控的感知和内容场景中。安防识别、工业检测、自动驾驶感知、手机影像和 AIGC,都可以在一定程度上把视觉输出作为独立结果来使用。

但机器人不同。机器人要求视觉结果直接进入行动链条。模型不能只是“看起来理解了”,它必须把货箱搬起来,把零件放到位,把路线走通,把门打开,把错误恢复过来。

这使得视觉模型的错误成本发生了变化。一次识别错误可能导致抓取失败,一次空间误判可能导致碰撞,一次物理预测错误可能让策略失效。

因此,产业需要的不是单点视觉能力,而是一整套面向物理世界的视觉基础设施:稳定的 3D 世界表征、低延迟动作生成、高质量机器人数据、可交互仿真环境、可靠的 Sim2Real 迁移,以及失败后的恢复机制。

只要 AI 继续从屏幕走向物理世界,计算机视觉就必然从“感知模型”走向“行动基础设施”。这也是具身智能夺取范式解释权的现实基础。

03


从开放世界之桥,到物理智能底座

回到 2017 年 IROS 的历史现场,李飞飞的出现象征着机器人学界对视觉智能的主动拥抱。那时,机器人如果要进入开放世界,就必须借助视觉理解对象、场景和人类意图。视觉是机器人通往开放世界的一座桥。

而现在 CVPR 2026 的具身智能热潮构成了另一个历史镜像:机器人问题开始反过来迫使计算机视觉重新理解自身。没有视觉,机器人无法理解开放世界;但没有行动,视觉智能也很容易停留在描述世界的层面,无法证明自己是否真正理解世界。

这就是“从座上宾到主战场”的真正含义。

它不是机器人取代计算机视觉,也不是 CVPR 变成机器人会议,而是具身智能夺取了计算机视觉的范式解释权。它重新定义了什么是重要问题,什么是有效方法,什么是成功结果,也重新定义了视觉智能必须面对的世界。雷峰网

过去,计算机视觉的核心是让机器看见世界;后来,它变成让机器理解世界;现在,具身智能正在要求机器进入世界。看见是感知,理解是表征,行动才是对理解的最终检验。


]]> 人工智能 https://www.leiphone.com/category/ai/HjikQc8qSRrbSlIL.html#comments Tue, 12 May 2026 15:48:00 +0800 港科广陈昶昊团队:只用一张 RGB 图像,让机器读懂室内 3D 空间丨CVPR 2026 https://www.leiphone.com/category/ai/5gfzILpQeBo3Okjm.html LegoOcc:无需语义体素标注,也能识别开放类别。

    作者丨郑佳美

    编辑丨岑   峰

                                                                                                               

真正的室内空间智能,并不只是让机器认出画面里有一张桌子,而是让它理解真实三维物理空间内:哪里可以通行、哪里存在遮挡、哪些物体能够交互。

对于未来的家庭机器人和护理机器人来说,理解一个房间并不只是完成图像分类。它意味着,机器人能够根据一句自然语言找到玄关柜旁的雨伞,能够在夜间识别走廊中的充电线是否可能绊倒老人,也能够在厨房中理解台面、水杯与边缘之间的空间关系,并在陌生环境中快速建立可行动的三维空间认知。

但室内环境,恰恰是 3D 感知最难落地的场景之一。相比之下,自动驾驶虽然复杂,却仍然拥有相对稳定的道路结构与交通参与者,而室内空间更像一个持续变化的开放世界。物体摆放随时可能变化,遮挡关系更密集,许多目标并不属于数据集中预定义的类别。如果希望模型真正理解三维空间,通常需要昂贵的 3D 语义标注,即在空间中逐点或逐体素标注每个位置属于什么物体。这种高昂成本,很难支撑家庭、办公与公共室内场景的机器人大规模部署。

在这样的背景下,香港科技大学(广州)陈昶昊团队提出了 LegoOcc,该成果《Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes》被 CVPR 2026 接收,并入选大会口头报告。

这项研究关注更接近真实应用的问题:仅使用一张普通室内 RGB 图像,不依赖多视角图像或激光雷达,也不使用 3D 语义标签,依然能够预测空间中的占用情况,并进一步支持基于自然语言的开放类别查询。

换句话说,LegoOcc 解决的,不再是让机器在固定类别中“做选择”,而是让机器真正开始“理解房间”,并把人的语言映射到三维空间中的具体目标。对于家庭机器人、辅助机器人以及 AR / VR 设备等应用,这意味着室内感知正在从“看见物体”,迈向“理解空间”。

论文地址:https://arxiv.org/pdf/2602.22667

01

少标注,强理解

leu'feng'wa的核心思想是:在完全不使用 3D 语义体素标注、仅使用几何占用标签的情况下,模型依然能够实现高质量的室内单目开放词汇 3D 占用预测。模型输入只有一张普通 RGB 图像,不依赖多视角图像、深度图或激光雷达点云;“3D 占用预测”关注的是室内空间中每个小立方体(体素)是否被墙体、桌椅、地板等物体占据;而“开放词汇”则进一步要求模型突破固定类别限制,不仅能识别椅子、桌子、墙等常见类别,还能够根据自然语言查询 鞋子、纸、垃圾桶、包 等更加自由的长尾物体。

该研究在 Occ-ScanNet 数据集验证:每个样本对应一个局部 3D 空间,模型需要同时预测空间占用与语义类别。LegoOcc 在开放词汇设置下达到 59.50 IoU 与 21.05 mIoU,其中:IoU 体现几何占用预测能力,即模型是否知道“哪里有东西”; mIoU 体现语义预测能力,即模型是否知道“这些位置是什么”。

相比开放词汇基线方法,POP-3D的35.32 IoU / 5.96 mIoU 和LOcc:36.70 IoU / 9.25 mIoU。LegoOcc 同时提升几何结构预测和开放词汇语义理解能力,尤其 mIoU 从 9.25 提升到 21.05,说明模型的语义识别能力获得了较大突破。雷峰网

研究团队还将 LegoOcc 与 TPVFormer、GaussianFormer、MonoScene、ISO、SurroundOcc、EmbodiedOcc、EmbodiedOcc++、RoboOcc 等闭集方法进行了比较。这些闭集方法使用完整语义体素标注训练,其中表现较强的 RoboOcc 达到 56.48 IoU 与 47.76 mIoU。虽然 LegoOcc 的 mIoU 仍低于 RoboOcc,但它在完全不使用 3D 语义标签的前提下,实现了超过所有闭集方法的 59.50 IoU。这说明,LegoOcc 在“空间哪里被占据”这一核心几何问题上已经非常强,而开放词汇 3D 语义理解本身仍然是一个极具挑战性的任务。

原因在于,室内类别天然更加细碎且边界模糊。椅子、沙发、其他家具等类别本身就容易混淆;开放词汇模型依赖 3D 特征与文本特征对齐,其类别边界不如闭集分类器稳定,同时还会受到2D 开放词汇分割质量、遮挡关系 、投影误差和单目深度歧义等因素影响。

02


两个关键设计

消融实验进一步说明,LegoOcc 的性能提升主要来自两个关键设计。

第一个关键设计,是高斯分布到体素占用(Poisson-based Gaussian-to-Occupancy)的转换方法。GaussianFormer2 在开放词汇训练下几乎直接失败,结果为 0.00 的交并比与 0.00 的平均交并比。原因在于,它没有充分利用高斯分布的透明度信息。伯努利方法虽然引入了透明度,性能提升至 46.65 的交并比与 17.25 的平均交并比,但在多个高斯分布重叠时,透明度仍然容易被平均化,导致语义特征对齐不稳定。提出的基于泊松分布的高斯到占用转换方法,最终达到 59.50 的交并比与 21.05 的平均交并比。将每个高斯分布视为空间中的一种占用证据,多个高斯分布的证据能够自然累积,共同决定某个位置是否被占据。相比简单叠加或平均,这种方式更稳定地解决二值几何监督下的三维占用转换问题。雷峰网

第二个关键设计,是渐进式温度衰减策略(Progressive Temperature Decay)。问题来源于语义特征混合,在三维高斯分布渲染到二维图像时,同一条视线上往往同时包含椅子边缘、桌腿、墙面背景等多个结构。如果直接进行加权融合,不同物体的语义会相互混杂。实验表明,温度始终较高时,训练虽然稳定,但语义混合严重;一开始就使用低温会导致训练直接崩溃;而训练阶段高温、测试阶段低温,则会因为训练与测试不一致导致性能下降。效果最好的是指数式温度衰减,最终达到 59.50 的交并比与 21.05 的平均交并比。这意味着模型需要先稳定学习场景结构与语义对齐,再逐渐减少特征混合,让每个高斯分布更加明确地对应具体物体或区域。

03


LegoOcc 的推理效

在单张 RTX 4090 显卡上,LegoOcc 达到每秒 22.47 帧,而 ISO 为每秒 3.81 帧,EmbodiedOcc 为每秒 11.48 帧,POP-3D 为每秒 10.21 帧,LOcc 为每秒 8.93 帧。

LegoOcc不仅依赖复杂后处理或多阶段推理,而是借助紧凑的三维高斯表示,在速度与准确率之间取得了良好平衡。可视化结果同样支持这一点。相比 LOcc,LegoOcc 对墙体、地板、家具、桌椅等结构的三维预测更加完整,空间结构更加连续。

在开放词汇查询中,模型还能根据背包、自行车、窗帘、鞋子、纸张、垃圾桶等自然语言类别,在三维空间中定位对应物体,而这些类别并不一定属于 Occ-ScanNet 固定定义的 11 个语义类别。因此,LegoOcc 不仅提升数据集指标,而是让模型更接近自然语言驱动的三维场景理解。

04


传统方法的两个局限

第一个限制是“闭集类别”问题,也就是模型只能识别训练数据中预先定义好的类别。例如,在 Occ-ScanNet 数据集中,主要评估的类别包括天花板、地板、墙壁、窗户、椅子、床、沙发、桌子、电视、家具以及杂项物体等。但真实室内环境远比数据集复杂,还存在书包、鞋子、垃圾桶、纸张、遥控器、衣服、玩具等大量长尾物体,而这些目标往往并不在固定类别列表中。

第二个限制是对昂贵三维语义标注的依赖。传统三维语义占用模型通常需要知道每一个三维体素具体属于什么类别。然而,室内环境中的物体往往高度密集、遮挡严重、类别繁多,如果采用人工逐点或逐体素标注,成本极高,也很难扩展到大规模真实场景。

因此,研究团队采用更符合实际应用的训练方式:训练阶段只使用二值占用标签,仅告诉模型“这里是否有物体”,而不提供具体语义类别。模型的语义能力则通过开放词汇二维分割模型与语言特征对齐来获得。

虽然训练阶段不使用语义体素标签,但在评估阶段,仍然会利用语义标签检验模型是否能够正确识别空间中的物体类别。评估主要采用两个指标:交并比用于衡量占用预测能力,即模型是否知道“哪里有东西”;平均交并比则用于衡量语义预测能力,即模型是否知道“这些位置分别属于什么类别”。

05


带语言特征的三维高斯表示

LegoOcc 的核心中间表示是带语言特征的三维高斯表示,这里的三维高斯不仅是空间点或模糊椭球,而同时携带几何信息与语言语义信息。

几何信息包括它在三维空间中的位置、形状、大小以及透明度,用于判断空间中哪些区域被物体占据;语言语义信息则是一个能够与文本特征对齐的向量,用于支持开放词汇查询。几何与语义被统一绑定在同一个三维表示之中。模型不再是“先预测三维结构、再额外贴语义标签”,而是在每个三维高斯中同时保存“它在哪里”以及“它可能代表什么”。

传统的“高斯到占用”方法容易出现两个问题。首先,几何分支没有充分利用透明度,而语义渲染过程却依赖透明度信息,导致几何学习与语义学习之间存在不一致;其次,室内场景中的物体十分密集,多个高斯可能同时影响同一个体素,如果简单叠加贡献,容易出现饱和或训练不稳定的问题。

为此,研究团队提出基于泊松建模的高斯到占用转换方法。该方法将每个高斯对空间位置的影响理解为一种“这里可能存在物体”的证据,一个位置是否被占据,由所有相关高斯的证据共同决定。这样不仅能够更自然地处理多个高斯重叠的问题,也能够让透明度真正参与几何占用判断。训练过程中,几何分支采用二值占用监督,并结合占用损失与深度约束,使模型能够学习稳定的三维空间结构。

06


依赖三维语义标注的语义学习

语义分支的目标,是让每个高斯的语言特征能够与文本类别实现对齐。

研究团队并没有使用人工标注的三维语义标签,而是借助已经训练好的开放词汇二维分割模型,从图像中提取语言对齐的语义特征。研究中采用了类似 Trident 的开放词汇分割模型。

LegoOcc 先从输入图像预测带语言特征的三维高斯,再将这些高斯的语义特征重新渲染回二维图像平面,从而得到每个像素位置上的渲染语义特征。随后,再利用开放词汇二维分割模型从原始图像中提取语言对齐的二维特征,并让两者尽可能保持一致。这样,模型便能够借助二维视觉语言模型获得语义监督,而无需人工为每个三维体素逐一标注类别。

07


渐进式温度衰减

室内场景中容易出现“特征混合”问题。比如,一张图像中可能同时包含桌子、椅子、墙壁和地板。某个像素从二维图像上看主要属于椅子,但沿着视线进入三维空间后,可能会同时经过椅子边缘、桌腿以及背景墙面等多个结构。在渲染过程中,多个高斯的语义特征会被加权融合到同一个像素中。如果直接利用这种混合特征去对齐二维开放词汇特征,模型虽然能够让最终结果“看起来像椅子”,却无法保证真正属于椅子的那些高斯本身学到了清晰的椅子语义。最终映射回三维空间时,语义边界就会变得模糊。

为了缓解特征混合问题,研究团队提出渐进式温度衰减的策略,用于控制高斯渲染时特征融合的软硬程度。在训练初期,模型尚未学好几何结构与语义特征。如果一开始就让每个高斯的贡献非常尖锐,训练过程会变得不稳定,梯度也可能难以优化。因此,早期需要采用较平滑的特征融合方式,让模型先学习整体场景结构。而到了训练后期,模型已经具备较稳定的几何基础。如果仍然保持过于平滑的融合,不同物体的语义就会持续混杂。因此,需要逐渐降低温度,让重要高斯的贡献更加突出,不相关高斯的影响进一步减弱,从而让每个高斯对应的语义更加清晰。

研究团队比较了多种策略,包括不使用温度衰减、固定低温度、线性衰减以及指数衰减。实验结果表明,指数式温度衰减效果最好,因为它能够让模型在低温阶段停留更长时间,从而更充分地学习每个高斯对应的清晰语义。

08


从固定识别到自然交互

训练完成后,LegoOcc 可以直接进行自然语言查询。推理阶段,模型首先从单张室内图像预测带语言特征的三维高斯表示,再进一步生成三维占用空间。对于每一个被占据的位置,系统都会保留对应的语言对齐特征。当用户输入一个文本类别,例如“纸张”或“鞋子”时,系统会先将文本转换成语言特征,再与三维空间中的特征进行匹配。匹配程度越高的位置,就越有可能属于对应类别。开放词汇的类别并不是固定写死在模型最后一层分类器中的,而是通过文本特征动态查询得到。因此,模型能够处理训练阶段没有明确出现在固定类别表中的物体。

LegoOcc 证明,室内场景同样能够实现开放词汇三维占用预测。这对于服务机器人、家庭机器人、增强现实 / 虚拟现实以及室内导航等方向,都具有重要意义。对于普通用户而言,这意味着未来的机器人不再只是“识别固定类别”,而是真正能够理解人的自然语言。它可以根据一句话找到地上的纸、桌子旁边的背包、椅子后面的鞋子,也能够在收纳、找物、避障、陪护以及室内导航等任务中更加实用。

这项研究显著降低了三维语义理解的训练成本。相比二维图像标注,三维语义标注需要在空间中逐点或逐体素进行类别标注,工作量更大,而室内物体类别又高度长尾,很难依靠人工穷尽。LegoOcc 通过“二值占用学习几何 + 二维开放词汇模型提供语义监督”的方式,使未来构建大规模三维语义理解系统的成本显著降低。

当然,这项研究仍然存在一定局限。例如,其语义平均交并比仍低于使用完整语义监督的闭集方法,说明开放词汇三维语义对齐仍不够精确。模型还依赖二维开放词汇分割模型的质量,而单目输入本身也存在深度歧义。此外,不同文本提示词,例如“椅子”“座椅”“办公椅”等,可能影响最终查询结果的稳定性。

LegoOcc推动室内三维理解从固定类别识别,进一步迈向更加灵活、更加自然的语言交互,为未来真正实用的家庭机器人、辅助设备以及增强现实 / 虚拟现实系统提供了重要基础。

09


LegoOcc 背后的研究者

第一作者:周常青,香港科技大学(广州)博士生,致力于高效且稳定的三维场景理解方法研究,当前重点关注端到端轨迹生成模型,以及面向导航任务的高效世界模型构建。

通讯作者:陈昶昊,香港科技大学(广州)智能交通学域和人工智能学域助理教授,副研究员,博士生导师,担任香港科技大学(清水湾校区)跨学科学院联署助理教授。

获英国牛津大学计算机科学博士学位,并在英国工程和自然科学研究委员会(EPSRC)资助下从事博士后研究。担任香港科技大学(广州)具身智能PEAK实验室独立PI.

其研究聚焦具身智能和自主无人系统前沿探索,致力于构建开放环境交互的具身智能体,服务低空经济、智能交通和智慧城市。

先后入选全球前2%顶尖科学家榜单、中国科协青年人才托举工程和国际机器人科学与系统大会先锋者,主持国家自然科学基金面上、青年以及省教育厅重点等纵向项目7项。

在NeurIPS、AAAI、CVPR、ICCV、ECCV、ICRA、IROS、WWW、TNNLS、TIP、TITS、RA-L等人工智能、机器人和智能交通领域高水平期刊和顶级会议上发表论文50余篇,谷歌学术引用超过3800次。

国际机器人与自动化会议(ICRA)和IEEE机器人与自动化快报(RA-L)副编辑(Associate Editor),中国自动化学会机器人专委会和具身智能专委会委员。已授权国家发明专利、国际PCT专利、美国、欧洲、澳大利亚专利共14项,包含1项在英国成功成果转化。

参考链接:https://changhao-chen.github.io/

]]> 人工智能 https://www.leiphone.com/category/ai/5gfzILpQeBo3Okjm.html#comments Tue, 12 May 2026 15:43:00 +0800 CVPR 2026 3D 视觉前沿梳理:模型正在学会理解、生成和构建世界 https://www.leiphone.com/category/ai/AgZr3UPqBUgK1Dv2.html 3D 视觉正从重建生成,走向空间理解、动态模拟与工程化应用。

    作者丨郑佳美

    编辑丨岑   峰

                                                                                                               

如果说过去几年的视觉 AI 主要是在回答“模型能不能看懂一张图”,那么到 CVPR 2026,一个更清晰的趋势正在浮现:模型正在被要求理解图像背后的三维世界。

二维图像只是现实世界在某个视角下的投影,真正困难的地方不在于生成一张看起来合理的画面,而在于模型能否理解物体的空间结构、相机运动、材质光照、物理变化,以及这些信息在不同视角和不同时间中的一致性。

从今年的一系列 3D 视觉相关工作可以看到,研究重点正在从“生成结果是否好看”,转向“生成过程是否具备空间逻辑”。

有的工作试图通过自监督 3D 重建,让模型在没有显式标注的情况下学习几何关系;有的工作绕过传统重建流程,直接利用 3D-aware 特征实现实时新视角合成;也有工作进一步把 3D 表示扩展到 4D 动态生成,让物体不仅有形状和外观,还能表现出符合物理规律的运动。

同时,单图 3D 重建、真实感 3D 生成、关键点长期追踪、像素级预训练、真实世界数据集和自动化代码工具链,也都在从不同层面补齐 3D 视觉的基础能力。

这些工作共同指向一个更深层的变化:3D 视觉不再只是计算机图形学或三维重建中的一个技术分支,而是在成为通向空间智能的重要路径。

模型要进入真实世界,就不能只学习图像表面的纹理和语义,而必须理解“物体在哪里、是什么形状、如何运动、在不同条件下如何保持一致”。从某种意义上说,CVPR 2026 的这些工作进一步加强了行业此前的认知:视觉 AI 正在从二维感知走向三维理解,从图像生成走向世界建模。

01


从看懂 3D 到生成 4D

3D 视觉研究的一个核心问题,是如何让模型真正理解空间结构,而不是只在图像层面学习纹理和相似性。

由 CMU、Adobe 研究院和哈佛大学共同提出的《E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training》正是从这个问题出发,研究如何在没有 3D 标注、相机位姿或深度监督的情况下,让模型仅通过多视角图像学习 3D 空间理解能力。

作者提出了 E-RayZer 这一自监督 3D 视觉预训练方法:模型会输入同一场景的多张图片,自动估计相机参数,并构建显式的 3D Gaussians 场景表示,再通过可微渲染生成目标视角图像,最后利用渲染结果与真实图像之间的差异来训练模型。这样一来,模型不只是学习图像之间的相似性,而是需要真正理解相机、几何结构和多视角空间关系。

论文地址:https://arxiv.org/pdf/2512.10950

这篇论文的亮点在于,它把自监督学习和显式 3D 重建结合起来,使模型能够在不依赖 3D 标注的情况下学习空间表征。相比一些只在隐式特征空间中做视角合成的方法,E-RayZer 使用 3D Gaussians 直接建模场景,因此几何意义更强,也更适合学习真实的 3D 结构。

实验结果表明,这种预训练方式在相机位姿估计、深度估计和新视角合成等任务上都有较好的表现,说明模型通过“自己重建 3D 场景”的训练过程,确实学到了有用的空间视觉能力。

E-RayZer 选择用显式 3D 重建来逼迫模型学习空间结构,但在实际的新视角合成任务中,显式重建并不是唯一选择。另一条思路是:如果模型已经具备足够强的 3D-aware 特征,是否可以跳过复杂的显式建模过程,直接用神经网络生成目标视角画面。

而由牛津大学视觉几何组、Meta AI 共同提出的《LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis》就研究了这个方向。

它关注的是 Novel View Synthesis(新视角合成),也就是给定一个场景的若干输入图像,让模型生成从新相机视角看到的画面。传统方法通常需要先重建显式 3D 场景,比如 NeRF 或 3D Gaussians,再进行渲染;而这篇论文提出的 LagerNVS 选择绕过显式 3D 重建,直接用神经网络从输入图像和目标相机视角生成新视角图像。

论文地址:https://arxiv.org/pdf/2603.20176v2

它的核心想法是:虽然模型不直接输出显式 3D 结构,但仍然应该引入强 3D 先验。具体来说,LagerNVS 使用一个从 3D 重建网络初始化而来的编码器来提取带有 3D 感知能力的 latent features,再配合轻量级解码器根据目标相机视角生成图像。

这样既保留了 3D 结构信息带来的几何理解能力,又避免了传统 3D 重建和渲染流程的复杂性。这篇论文的亮点在于,它证明了即使是不显式重建 3D 场景的新视角合成模型,也能明显受益于 3D-aware 特征。

实验中,LagerNVS 在确定性 feed-forward 新视角合成上取得了很强的效果,例如在 RealEstate10K 上达到 31.4 PSNR,并且可以在有相机参数或无相机参数的情况下工作;模型还支持实时渲染,在单张 H100 GPU 上可达到 30 FPS 以上。

如果说 E-RayZer 和 LagerNVS 主要处理的是静态场景中的空间理解与视角生成,那么更进一步的问题是:模型能否不仅生成 3D 外观,还生成符合物理规律的动态变化。

北京理工大学、理想汽车、哈尔滨工业大学和四川大学联合提出的《PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis》把关注点从静态 3D 扩展到动态 4D。

它研究的是如何从单张图像快速生成带有物理规律的动态 4D 场景,也就是不仅要重建物体的 3D 外观,还要让它在运动、变形、受力时表现得更符合真实物理。现有很多方法通常需要先用多视角图像重建 3D Gaussian Splatting,再手动设置刚度、质量等物理参数,或者通过视频模型进行耗时的逐场景优化。

而 PhysGM 希望用一次前向推理,直接预测物体的 3D Gaussian 表示和对应的物理属性,从而快速初始化物理模拟并生成高质量动态渲染结果。

论文地址:https://arxiv.org/pdf/2508.13911v4

这篇论文的亮点在于,它把 3D Gaussian 重建和物理属性预测放到同一个 feed-forward 框架中,不再把几何重建和物理模拟分成两个独立步骤。模型会从输入图像中推断物体的外观、几何以及材料属性,例如刚度、密度等,再结合 MPM 物理模拟生成动态序列。

作者还使用 DPO 对模型进行偏好优化,让生成结果更接近物理合理的参考视频,同时避免传统 SDS 方法中昂贵且不稳定的逐场景优化。整体来看,这篇论文的贡献是:让模型从单张图像出发,在较短时间内生成既有真实外观、又具备物理运动规律的 4D Gaussian 场景,提升了物理驱动 4D 内容生成的效率和实用性。

动态场景生成强调的是物体如何运动和变化,而在真实应用中,另一个基础需求是把普通自然图像中的物体直接转成可用的 3D 表示。Meta 超级智能实验室提出的《SAM 3D: 3Dfy Anything in Images》研究的就是从单张自然图像中进行 3D 物体重建:

模型不仅要恢复物体的几何形状,还要预测纹理、姿态和在场景中的布局。相比只在干净物体图或合成数据上表现较好的方法,SAM 3D 更强调真实场景中的应用,例如物体被遮挡、背景杂乱、尺寸较小或姿态异常时,仍然能够根据图像上下文生成较完整的 3D 结果。

论文地址:https://arxiv.org/pdf/2511.16624

它把大规模数据引擎和生成式 3D 重建模型结合起来。作者通过 human- and model-in-the-loop 的流程标注物体形状、纹理和姿态,构建了大规模视觉对齐的 3D 重建数据,再用多阶段训练方式把合成预训练和真实世界对齐结合起来,试图突破 3D 数据不足的问题。

实验中,SAM 3D 相比已有方法在真实物体和场景的人类偏好评测中取得了至少 5:1 的胜率,并且论文还计划发布代码、模型权重、在线 demo 和新的野外 3D 重建 benchmark。整体来看,这篇论文的贡献是:把类似 SAM 的“开放世界视觉理解”能力推进到 3D 重建中,让模型可以从普通图片中更稳定地生成可用的 3D 物体表示。

当 3D 生成模型逐渐能从真实图片中恢复物体结构后,画面是否足够真实就变成了新的瓶颈。很多 3D 可控生成方法依赖合成数据来获得几何、视角和材质控制能力,但合成数据本身也容易把模型带向“合成感”的视觉风格。雷峰网

Technion 和 Meta AI 共同提出的《Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning》正是针对这个问题,研究如何让 3D 生成结果同时具备真实照片级外观和稳定的 3D 一致性。

很多方法会用带有标注的合成 3D 数据去微调图像生成模型,从而获得视角、几何、材质等控制能力,但这样容易让模型把“有控制信号”和“合成渲染风格”错误绑定在一起,导致生成结果虽然可控,却不够真实。

Realiz3D 的目标就是解决这个真实图像和合成数据之间的 domain gap,让模型既能听从 3D 控制,又能生成更像真实照片的结果。

论文地址:https://idosobol.github.io/realiz3d/

这篇论文的核心做法是引入 Domain Shifters,也就是一组轻量级残差适配器,用来单独学习“真实 / 合成”这种视觉域信息,而不是把视觉风格和 3D 控制信号混在一起。训练时,模型先学习区分和切换真实域、合成域,再利用合成数据学习精确控制,同时通过真实数据帮助模型保持照片级外观。

论文还结合了 layer-aware training 和 domain reassignment 等策略,让控制能力更好地迁移到真实图像域中。它的亮点在于,不是简单把真实数据和合成数据混在一起微调,而是显式拆分“视觉真实性”和“几何控制能力”,从而减少模型生成合成感画面的倾向。

实验展示中,Realiz3D 可以用于 text-to-multiview generation 和基于 3D 输入的纹理生成,生成结果既保持多视角一致性,又比普通微调方式更加真实。

02


不只拼生成,底层表征也在进化

并不是所有 3D 视觉研究都直接以生成完整场景或物体为目标。很多基础工作更关心的是,模型能否学到可靠的空间表征、稳定的局部结构,以及能否在后续 3D 任务中提供更强的底层视觉能力。

由武汉大学计算机学院和小米 EV 团队提出的《From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection》聚焦的就是 3D 视觉系统中的关键点检测问题,尤其关注 SfM、SLAM 等任务里关键点能否在连续多帧图像中长期稳定地被追踪。

作者认为,很多现有方法主要基于图像对训练,只优化两张图之间的匹配效果,但在真实序列任务中,更重要的是关键点能不能在多视角、光照变化和运动模糊下持续保持稳定。这篇论文提出的方法叫 TraqPoint,核心是把关键点检测看成一个序列决策问题,并用强化学习中的 policy gradient 来直接优化关键点的长期可追踪性。

论文链接:https://arxiv.org/pdf/2602.20630v3

它不再只判断一个点在两张图里是否好匹配,而是把整段图像序列作为环境,通过 track-aware reward 奖励那些在多帧中既稳定、又具有区分度的关键点。这样训练出来的关键点更倾向于落在结构明显、跨视角一致性强的位置上。

这篇论文的亮点在于,它把关键点学习从“图像对匹配”推进到了“序列级追踪”,更贴近 SLAM、视觉里程计和 3D 重建等实际应用需求。实验结果也显示,TraqPoint 在相对位姿估计、视觉定位、视觉里程计和 3D 重建等任务上都有较好表现,尤其在序列任务中能带来更长的关键点跟踪长度和更稳定的轨迹估计。

关键点检测强调的是局部结构在多帧序列中的稳定性,而视觉预训练则进一步追问:模型要获得通用视觉能力,究竟应该依赖什么样的监督信号。FAIR 和香港大学共同提出的《In Pursuit of Pixel Supervision for Visual Pre-training》重新把目光放回像素本身,研究的是视觉预训练中的一个核心问题:

模型到底应该从哪里获得监督信号。相比现在很常见的 DINO、JEPA 等在 latent space 中学习表征的方法,这篇论文重新强调 pixel supervision 的价值,认为像素本身包含颜色、纹理、材质、几何和语义等多层次信息,因此直接让模型预测被遮挡的像素,也可以学到很强的通用视觉表征。

这篇论文的亮点在于,它证明了基于像素重建的自监督学习并没有过时,只要任务设计和数据规模足够好,仍然可以和当前强大的 latent-space 方法竞争。

论文地址:https://arxiv.org/pdf/2512.15715v1

Pixio 在原始 MAE 的基础上做了几个关键改进,包括使用更大的 mask block 来增加预训练难度、更深的 decoder 来增强像素重建能力、更多的 CLS token 来捕捉不同层次的全局信息,并使用约 2B 张网络图片进行训练,同时通过自筛选策略减少人工数据清洗依赖。

整体来看,这篇论文的贡献是:重新验证了像素级自监督预训练的潜力。实验显示,Pixio 在单目深度估计、前馈式 3D 重建、语义分割和机器人学习等任务上,能够达到或超过类似规模训练的 DINOv3 表现。

它说明直接预测像素不仅能学习低层视觉细节,也能帮助模型理解几何、空间结构和语义信息,因此可以作为 latent-space 预训练方法的有力替代和补充。

03


从论文到代码,从采集到数据

模型能力的提升不仅依赖新的网络结构和训练目标,也依赖数据与工具链的完善。一方面,研究者需要更高效地复现已有方法并把论文转化为可运行代码;另一方面,真实世界 3D 视觉任务也需要更高质量、更可控的数据资源。

UCSD 提出的《NERFIFY: Multi Agent Framework for Turning NeRF Papers into code》对应的是前一个问题,研究的是如何让大语言模型代理自动把 NeRF 相关研究论文转化成可以运行、可以训练的 Nerfstudio 插件代码。

作者指出,很多 NeRF 论文没有公开代码,研究者往往需要花费很长时间重新实现,而通用的 paper-to-code 方法在这类任务上容易生成不能运行或训练效果很差的代码,因此他们提出了 NERFIFY 这个面向 NeRF 领域的多智能体代码生成框架。

它的核心思路是把论文解析、依赖恢复、代码生成和训练反馈串成一个自动化流程。系统先将论文内容整理成结构化信息,再利用 Nerfstudio 的架构约束形成类似 CFG 的生成规则,保证生成代码符合基本模块接口。

随后通过 Graph-of-Thought 多智能体方式按依赖顺序生成多个文件,并自动追踪论文引用中隐藏的关键组件,例如采样器、编码器或 proposal network;最后还会根据训练结果和渲染图像中的问题进行视觉反馈和代码修正。

论文地址:https://arxiv.org/pdf/2603.00805

它不是简单让模型“读论文写代码”,而是把 NeRF 领域知识、代码结构约束、引用依赖恢复和视觉质量反馈结合起来,让生成的代码更接近真实可用的研究实现。

实验中,NERFIFY 在 30 篇不同复杂度的 NeRF 论文上进行评估,对于没有公开实现的论文,它生成的结果可以接近专家手写代码的视觉质量,同时把实现时间从几周缩短到几分钟。

整体来看,这篇论文的贡献是提出了一种面向复杂视觉论文的领域专用 paper-to-code 框架,目标是降低 NeRF 研究复现和二次开发的门槛。

如果说 NERFIFY 试图降低研究复现和二次开发的成本,那么 OLATverse 则是在数据层面为逆渲染、重光照和新视角合成等任务补足基础设施。

由马克斯・普朗克信息学研究所和南京大学共同提出的《OLATverse: A Large-scale Real-world Object Dataset with Precise Lighting Control》研究的是面向逆渲染、重光照、新视角合成和法线估计的真实物体数据集构建问题。

作者指出,现有很多方法仍然依赖合成数据训练,或者只能在小规模真实数据上评估,导致模型在真实场景中的材质、光照和几何泛化能力受限。为了解决这个问题,论文提出了 OLATverse,一个大规模真实物体数据集,包含 765 个真实物体,并在多视角和精确可控光照条件下采集图像。

这篇论文的亮点在于,它同时兼顾了真实物体规模、光照控制精度和辅助标注质量。数据采集使用 lightstage 系统,每个物体由 35 个校准相机拍摄,并由 331 个可控光源照明,支持 OLAT、环境光、均匀光和梯度光等多种光照设置。

论文地址:https://arxiv.org/pdf/2511.02483v3

同时数据集中还提供相机参数、物体 mask、表面法线和 diffuse albedo 等信息。相比以往很多数据集只强调物体数量,或者只在少量物体上做精细光照采集,OLATverse 的价值在于把“大规模真实物体”和“高精度可控光照”结合起来。雷峰网

整体来看,这篇论文的贡献是:提供了一个更贴近真实世界的高质量物体外观数据资源,让模型可以更可靠地学习材质、几何和光照之间的关系。它不仅可以用于训练重光照和生成式先验,也可以作为逆渲染、新视角合成、法线估计等任务的综合 benchmark。

论文也提到,目前数据中的法线和反照率还不是严格意义上的真实 ground truth,且没有提供真实 mesh,但作为真实世界物体外观和可控光照数据集,它对后续 3D 视觉和图形学研究仍然很有价值。

]]> 人工智能 https://www.leiphone.com/category/ai/AgZr3UPqBUgK1Dv2.html#comments Tue, 12 May 2026 15:41:00 +0800 马斯克爆出「权力暗桩」,奥特曼进入反击时刻? https://www.leiphone.com/category/ai/VZm3rt1QhzalTW22.html

5月,随马斯克诉 OpenAI 一案进入第二周,案件焦点逐渐从马斯克本人转向 OpenAI 的内部治理结构及董事会相关证言。

更多的证据被呈现出来:比如2017年马斯克试图将OpenAI吞并入Tesla的"打包方案",Brockman日记记录谈判破裂后马斯克"撕画摔门"的细节,Karpathy被秘密挖角等。

5月6日,Oakland联邦法庭上出现了一个更特殊的身影,Shivon Zilis。她是马斯克四个孩子的母亲,也是OpenAI的前董事会成员。

2026年5月6日,OpenAI公司前董事会成员Shivon Zilis离开位于加利福尼亚州奥克兰的联邦法院。

她站上证人席,揭开了一个连法官都为之侧目的事实:她是马斯克在OpenAI内部的"联络人",负责定期向马斯克汇报公司动态,包括奥特曼的邮件、董事会的决策以及那些本不该被外人知晓的机密信息。

通过这些证据拼图,案件的核心叙事逐渐清晰,这并非一场突如其来的公益诉讼,而是一场跨越十年的控制权角逐。

马斯克厉声指控对方“窃取了慈善资产”,将其转化为数百亿美元的商业帝国;而另一端的奥特曼阵营,则带着数百页的备忘录,试图证明马斯克才是那个最早想把 OpenAI 私有化的人。

当通往 AGI 的船票变得前所未有的昂贵,这场官司的底色已越发复杂。


01

蜜月与决裂:谁该控制OpenAI?

2015年,Google吞并DeepMind的震动席卷硅谷。在对“巨头垄断人类未来”的共同焦虑中,风头正劲的孵化器总裁奥特曼与“硅谷狂人”马斯克在一场私人晚宴上相遇。

两人一聊,发现彼此对AI的看法惊人一致:这是人类的最大威胁,但也是最大机遇。他们决定联手,建立一家不为任何人赚钱、只对全人类负责的非营利实验室OpenAI。

2015年《名利场》大会上,埃隆·马斯克与萨姆·奥尔特曼同台。图片来源:Michael Kovac—Getty Images for Vanity Fair

马斯克是命名者和最大金主,承诺投入1亿美元(虽然后来实际只给了3800万);奥特曼是CEO,负责日常运营;Brockman是总裁,负责技术研发。三个人站在同一条战线上,对抗Google旗下的DeepMind,要让AI惠及全人类。

但马斯克与OpenAI的蜜月期比所有人想象的都要短。仅仅两年后,裂痕就开始出现。

在证词中,马斯克将自己对OpenAI的态度变化描述为三个阶段:

2015年到2017年,他对公司充满信心,全力支持;

2017年到2022年,"我开始觉得他们可能在偷窃慈善资产";

2022年至今,"他们确实偷窃了慈善机构"。

马斯克称OpenAI偷窃了慈善机构

态度变化的关键转折点在2017年,这一年OpenAI在Dota 2游戏中战胜了人类世界冠军,展示了令人震惊的技术能力。但同时,这项技术也暴露了一个残酷的现实:训练这样的AI需要巨额计算资源,而OpenAI这样的非营利结构根本无法承担。

马斯克从中看到了一场大规模的"挖角+吞并"行动的机会。


02

代理人卧底,秘密挖角Karpathy

2017年,彼时OpenAI还是个成立两年的小非营利组织,研究人员不超过50人,资金永远紧张。奥特曼每周工作100个小时,四处奔波寻找投资,马斯克像是一个随时可以兜底的后盾,兜住了OpenAI的未来。

但看到OpenAI未来庞大的资金缺口后,马斯克觉得自己有资格开出一个条件:把OpenAI给我,我来让它变得伟大。

OpenAI官方宣称马斯克2017年就已要求获得OpenAI 的绝对控制权

根据庭审披露的邮件记录,当时,马斯克向OpenAI抛出了一个"打包方案":将OpenAI纳入Tesla,成为Tesla AI帝国的一部分。作为交换,他将增加数百万美元的投资,并将OpenAI的研究成果直接应用于Tesla的自动驾驶技术。

这个方案的操盘手,正是Zilis。她是OpenAI的研究员,Neuralink的高管,更是马斯克四个孩子的母亲。她在OpenAI董事会任职至2023年,定期向马斯克汇报OpenAI的内部动态,包括奥特曼的邮件、公司的战略讨论、董事会的决策。在Brockman的日记中,她被形容为"our proxy Elon"——马斯克在OpenAI的代言人。

邮件显示,Zilis向马斯克提议了多种"对抗DeepMind"的方案:让奥特曼担任Tesla AI实验室的负责人,全权负责Tesla的AI研发;或者"搞定Demis"——指DeepMind创始人Demis Hassabis,通过某种方式让DeepMind也归入马斯克的版图。

但奥特曼和Brockman拒绝了。

Brockman的日记中提到:当马斯克提出吞并方案时,奥特曼和Brockman选择了说不。他们不想成为Tesla的一个部门,不想让OpenAI的理想成为马斯克商业帝国的一部分。

此后,两边的关系逐渐降至冰点。

Muskonomy在X上对这一事件的描述

事实上,在招募奥特曼之前,马斯克已经在秘密完成了一次"内部挖角"。

2017年6月,在担任OpenAI董事会成员的同时,马斯克偷偷将OpenAI的核心研究员Andrej Karpathy挖到Tesla带自动驾驶团队。

Karpathy是OpenAI的创始成员之一,是计算机视觉领域的顶尖专家,他的离开无疑是OpenAI的重大打击。

在给Tesla高管的邮件中,马斯克写道:"OpenAI的人会想杀了我,但这必须做。"

Brockman后来作证时透露,马斯克挖走Karpathy后,主动找到他"道歉和坦白"。两人之间的对话非常尴尬,马斯克承认自己做了一件可能伤害OpenAI的事,但他认为这是"必要的"。

马斯克给Tesla高管的邮件

然而最终离开OpenAI的不是奥特曼,而是马斯克本人。2018年马斯克以"利益冲突"为由离开了OpenAI董事会。Tesla的自动驾驶研发需要大量AI人才,而他在OpenAI的职位让他无法光明正大地挖人。

他留下了Zilis这个"代理人"监控OpenAI的一举一动。直到2026年OpenAI筹备上市期间,毒蛇才露出它的獠牙:起诉OpenAI违背非营利使命。


03

自打脸现场,双标证词混淆视听

2026年5月,Oakland联邦法院门口,清晨七点不到记者和摄影师就在这排起了长队。这场被称为硅谷最贵“离婚案”的庭审,吸引了来自全球的媒体关注。

马斯克站上了证人席。他穿着整洁的黑色西装,领带系得一丝不苟。整个人看起来冷静、沉着、泰然自若。面对陪审团和法官,他甚至会开几个玩笑,展现出一个"老练诉讼参与者"的姿态。

但玩笑归玩笑,证词归证词。这场官司中,马斯克必须面对一个关键的法律问题:三年诉讼时效

马斯克起诉OpenAI的核心理由是:OpenAI违反了慈善信托,变成了赚钱机器,不再为人类利益服务。这是一个严肃的法律指控,但法律规定的诉讼时效只有三年。

2022年山姆与马斯克沟通股权的短信

这意味着马斯克必须证明他直到最近才知道OpenAI"变质"。如果陪审团认为马斯克早就知道,那诉讼可能直接被驳回。这也是为什么庭审过程中马斯克团队会一直抓住“2023年微软投资100亿美元”这个时间点不放。

在证词中,马斯克展示了他2022年发给奥特曼的短信:

"这笔交易是什么?'微软投资100亿'?这是'诱饵'。"

这条短信被马斯克团队视为关键证据,证明他对微软投资的愤怒,以及他直到那一刻才发现OpenAI"变质"。

马斯克称这是诱饵

但问题是:如果马斯克在2017年就感觉"他们可能在偷窃慈善机构",中间那五年他在做什么?他为什么不早点起诉?

庭审中,马斯克律师试图解释:马斯克一直在等待,等待OpenAI给他一个"交代",等待一个合适的时机。但等待了五年,这个时机终于来了,或者说,这个借口终于够用了。

在之前连续三天的证词中,马斯克的现场表现也堪称"教科书级别的双标"。

第一打脸:Tesla没有AGI计划。

2026年3月,也就是庭审前一个月,马斯克还在X上发推称"特斯拉将成为首批实现AGI的公司之一"

这条推文获得了数百万次阅读,让无数人相信Tesla在AI领域的野心。但仅仅一个月后,面对律师的追问,马斯克承认:"特斯拉无AGI相关计划。"变脸之快,令人咋舌。

第二打脸:xAI违反OpenAI服务条款。

马斯克起诉OpenAI的核心理由之一,是后者将非营利研究成果用于商业目的,违背了最初的使命。这听起来义正言辞,但交叉盘问中,OpenAI律师抛出了一个致命问题:xAI是否使用OpenAI的模型来训练自己的产品?

马斯克承认:是的,xAI蒸馏OpenAI模型来训练Grok。

用同样的方式起诉别人,却发现自己的公司也在做同样的事,简直双标至极。

第三打脸:捐赠金额缩水。

马斯克在公开场合和证词中多次声称,自己向OpenAI捐赠了约1亿美元。但实际数字仅3800万美元,一半都不到,而且没有任何书面协议。

第四打脸:理想主义人设崩塌。

Brockman的日记是这场庭审的“核弹级证据”。日记显示,OpenAI成立时的核心决定是:"任何个人都不应该对我们正在创造的东西拥有控制权。"马斯克是签署这份文件的人之一,也是因“无法控制”而将OpenAI送上法庭的关键人物。

当OpenAI律师提出尖锐问题时,马斯克表现得也不尽如人意。据The Information报道,马斯克经常对构成案件一些关键证据的电子邮件往来感到不熟悉,并谴责 OpenAI 律师提出的问题都是诡计。

他多次拒绝直接回答简单的是非题,辩称问题"设计上是复杂的"。当马斯克律师试图将话题引向"我们所有人都可能因AI而死亡"这种宏大叙事时,法官直接打断,明确表示:“这不是引导性问题,这是一个引导性答案。”

而马斯克试图和法官开玩笑时,法官的回应更加犀利:“你不是律师,Elon。”马斯克只好尴尬地回答:“我确实上过Law 101(法律入门课)。”

而整个第一周,奥特曼作为被告出庭,存在感相对低调。他没有与马斯克进行大量直接对抗,只是偶尔在马斯克证词离谱时露出难以察觉的微笑,反击主要由OpenAI律师完成。据内部人士透露,奥特曼准备了数百页的笔记,留待后续出大招。


04

审判会走向何方?

如今审判还远未结束。

Zilis出庭作证后,前OpenAI人工智能安全研究员、哥伦比亚大学法学院前院长David Schizer等证人陆续出庭,试图证明奥特曼在 AI 安全投入不足、偏离非营利使命,并在若干关键陈述上存在不诚实或不一致之处。

陪审团会如何看待这些证词,以及这些证词将在多大程度上影响他们对双方责任的判定,目前尚不得而知。

但随着庭审焦点的转移,后续诸如微软CEO Satya Nadella以及奥特曼本人的出庭,或许将在这个过程中为他们争取到更多辩护的机会。

然而值得关注的是,有海外法学专家指出,即使在法庭上败诉,对马斯克来说也未必是灾难性的,“即使他最终没有赢,他也已经利用这件事得到了广泛的舆论关注。”

雷峰网

]]> 人工智能 https://www.leiphone.com/category/ai/VZm3rt1QhzalTW22.html#comments Tue, 12 May 2026 14:31:00 +0800 何恺明团队论文全景扫描:一场关于「生成范式」的多角度突破 | CVPR 2026 https://www.leiphone.com/category/ai/dIG98W2KaEKFQ5Xp.html

2025 年到 2026 年,如果要问生成式 AI 领域最值得关注的研究方向,流匹配(Flow Matching) 是一个无法绕开的答案。

从去年起,这个名字开始频繁出现在顶会论文里、被工业界反复讨论、被拿来和统治了图像生成领域长达五年的扩散模型正面比较。

所谓流匹配,本质上是用常微分方程路径(ODE path)替代扩散模型的随机微分方程路径,让数据从噪声到图像的转变不再依赖数百步迭代,从而在理论上实现更高效的生成。但从理论可行到工程落地,中间隔着无数技术细节——训练目标怎么设计、架构怎么选、速度和质量如何兼顾,每一步都是坑。

何恺明团队正是在这个节点上,密集地交出了一份多角度的答卷。

AI科技评论总结了何恺明团队近期在CVPR大会上发表上的论文: 2025 年 5 月,他们提出了均值流(MeanFlow),首次将"均值速度场"引入生成建模;同年年底,BiFlow 在归一化流框架上实现了 700 倍加速,将 FID 推到 2.39;几乎同一时间,Improved MeanFlow(iMF)则以三个系统性修复将单步 FID 降至 1.72,首次在无蒸馏条件下超越所有蒸馏方法。

生成模型之外,团队在视觉推理(VARC,CVPR 2026)和自监督学习(Pixo,CVPR 2026)上也同时出击,共同勾勒出一个清晰的战略意图:扩散模型并不是图像生成的终点,流匹配这条路,值得全力押注。

这五篇论文之间没有直接的方法传承,方向各有侧重,但贯穿其中的核心问题始终如一:在每一个被默认的技术选择背后,到底藏着多少被低估的优化空间?


让"去噪"模型真正做一次去噪

理解 JiT 的工作,需要从扩散模型一个被忽视已久的痛点说起。

当前的扩散模型在训练时,网络学习预测的目标是噪声 ε 或速度 v,而非干净图像 x。

这个细节在大多数论文里被一笔带过,但它有一个容易被忽视的含义:噪声和速度并不在自然图像的流形上。用大白话说,网络在试图预测一个"不属于这个世界"的东西——它不在图像分布内,是离群的量。这种预测天然地不稳定,网络需要额外的表达能力来处理那些本不应该出现在预测目标里的高维噪声。

也就是说,预测噪声和预测干净图区别很大。

流形示意图

JiT 的核心洞察正是从这里切入的。既然 x(干净图像)在图像流形上,那就让网络直接预测 x。直觉上这是一个退步——流形外的东西更难预测,流形内的东西反而应该更容易。但团队指出,这个逻辑在扩散模型里是反的:噪声 ε 分布在高维空间,目标分布极广,网络需要一个很强的先验来"猜测"噪声的真实值;而 x 就在流形上,是网络见过的、理解的、可以自然逼近的东西。

为了让这个朴素的想法在工程上成立,JiT 采用了标准 Vision Transformer,但做了一个看似大胆的调整:patch 尺寸可以非常大——16×16、32×32 甚至 64×64,而不像标准扩散模型那样在高分辨率下被迫使用极小的 patch。

原因在于:x 在流形上,网络不需要处理流形外的高维噪声干扰,因此 patch 大小的增加不会导致信息缺失,也没有带来灾难性的效果退化。

这是一种返璞归真,直接预测目标图像,对传统认知发起了一次直接挑战.

JiT模型生成的图像样本

JiT 还完全去掉了 VAE Tokenizer,不需要预训练的潜空间,不需要 GAN 损失或感知损失,就是最朴素的 Transformer 在像素上做去噪。模型规模 86M 参数,从 256 到 1024 分辨率,计算量几乎不变——只需要调整 patch 大小。这意味着一个原生模型可以在任意分辨率上生成,而不需要借助潜空间的压缩-解压机制。

最终结果在 ImageNet 512×512 上实现了 FID 1.78,且 JiT-G 版本在更高分辨率下依然保持了竞争力的 FID。更值得关注的是,这个性能是在没有任何蒸馏、没有任何外部模型辅助的前提下从零训练得到的。

JiT 证明了"让扩散模型真正做去噪"这件事本身,就足以带来显著的质量提升——不需要更多的工程技巧,只需要把预测目标换回那个理所当然却被忽视了五年的选项。

论文链接:https://arxiv.org/abs/2511.13720


ARC:跳出语言模型的舒适圈

ARC是 AI 领域历史最久的推理能力测试之一,包含数百个"视觉谜题",要求模型从少数示例中推断规则并泛化到新样本。物体对称、重力方向、颜色连续性、反射变换——这些概念本质上是对物理世界的抽象,本不应该和语言有任何关系。

然而长期以来,整个社区把 ARC 当成了一个语言问题。GPT-4、Claude、Deepseek 几乎都在 ARC 上刷过榜,原因是 ARC 的任务描述可以自然地翻译成文字,语言模型恰好擅长这类文字推理。这在工程上无可厚非,但它制造了一个隐性的假设:视觉抽象推理,必须借助语言才能完成。

VARC 要挑战的正是这个假设。

把 ARC 任务重新建模为图像到图像的翻译问题,用一个只有 18M 参数的 ViT 从头训练,不依赖任何语言能力,在 ARC-1 上达到了单模型 54.5%、集成 60.4% 的准确率。60.4% 是什么水平?人类平均水平是 60.2%,顶级大语言模型也在这个区间。

这意味着,一个参数量只有顶级 LLM 几千分之一的纯视觉模型,在视觉推理任务上达到了与人类相当的水平。

VARC框架的实现路径也非常直接,没有把输入网格直接 token 化,而是使用了“画布”,将网格嵌入到一个足够大的预定义画布(32×32)上,背景用第 11 种颜色填充。然后像处理一张普通图片一样,被ViT模型进行端到端的处理。

这带来一个关键效果:token 数量从有限的网格大小扩展到了更大的空间,让 ViT 的注意力机制有了充足的施展余地,能够捕捉远程的视觉关系。

WARC的画布

另外,测试时训练(TTT)在推理阶段利用测试任务的少量示例做快速微调,是性能逼近人类水平的关键——模型不是"记住"了 ARC 的规则,而是在看到新任务时快速学习规则本身。

VARC 的出现给整个 ARC 社区泼了一盆冷水:大家花了大量工程资源在语言模型上刷榜,却忽视了纯视觉方法在这个任务上的潜力。

这个潜力的释放需要两个条件:一个足够大的视觉画布,以及一个让模型在推理时继续学习的机制。一旦这两个条件被满足,视觉推理不需要语言模型这件事,变得异常清晰。

论文链接: https://arxiv.org/abs/2511.14761


突破归一化流限制,图像单步生成加速

归一化流是生成式建模中历史最悠久的框架之一。它最大的理论优势是可以用精确的数学形式同时完成生成和似然估计,训练过程透明、可解释,不像扩散模型那样依赖多次采样来近似对数似然。但长期以来,它在性能上被扩散模型压得喘不过气来。

原因出在两个结构性约束上。

第一,传统归一化流为了保证前向变换的精确可逆性,必须采用受限的网络架构,无法使用 Transformer 等更强大的序列模型。

第二,逆向过程依赖自回归因果解码,每一步必须顺序计算,无法并行,生成一张图的时间成本极高。这两个约束几乎从根子上限制了归一化流在大规模图像生成上的竞争力。

BiFlow 的解题思路初看有些反直觉:逆向过程不需要是前向过程的精确逆

前向过程保持可逆,这是数学上的保证,确保分布映射的准确性不受损害;但逆向过程单独训练一个独立的模型来近似逆映射,不要求它在数学上等于前向的解析逆。这个"放弃精确逆"带来了一个巨大的解放:逆向过程可以使用完全并行的 Transformer 架构,实现真正的单步生成,不再受自回归解码的顺序瓶颈约束。

但这还不够。逆向模型单独训练,意味着它学到的表示空间可能与前向过程完全不同——两者可能在不同的隐空间里各说各话。

BiFlow 引入了隐藏层对齐机制,利用前向过程的中间状态轨迹监督逆向模型,确保两者在表示空间中对齐,防止逆向模型"跑偏"。对齐之后,逆向模型既能受益于 Transformer 的强大表达能力,又能保持前向过程的分布结构完整。

标准化流与BiFlow的概念对比

最终结果在 ImageNet 256×256 上实现了 FID 2.39,这是归一化流方法的历史新纪录。但更有冲击力的是速度数据:单张图像生成时间从 TARFlow 的 0.7 秒缩短到 0.001 秒,加速约 700 倍。

BiFlow与SOTA流模型的效率对比

这不再是理论推演,而是一个可以直接在工程中落地的效率跃迁。归一化流长期被视为"理论上优美、工程上鸡肋"的框架,BiFlow 至少把后半句的错误认知打破了。

论文地址:https://arxiv.org/abs/2512.10953


快进生成,无需蒸馏

如果说 BiFlow 是把归一化流从困境中拉了出来,那么 iMF(Improved Mean Flows)的目标更彻底:把"快进生成"这条路的瓶颈彻底打通。

"快进生成"的核心目标是让扩散模型用 1 步而不是 250 步完成图像生成。此前的工业界解法几乎都依赖蒸馏——用一个大而慢的扩散模型作为"教师",训练一个小的"学生"在 1-2 步内近似教师的输出。蒸馏效果不错,但代价也明显:训练流程极其复杂,学生的性能上限被教师锁死,一旦教师本身有缺陷,学生无论如何都超不过去。

何恺明团队在 2025 年 5 月提出了均值流(MeanFlow),首次将"均值速度场"引入生成建模,目标是实现真正的单步高质量生成。方向正确,但初代 MF 有三个系统性的训练缺陷,导致最终性能距离当时的 SOTA 有明显差距。ImageNet 256×256 的 FID 停留在 3.43,而最好的扩散模型已经在 1.x 徘徊了。

第一个缺陷是训练目标的"自依赖"。MF 的训练目标是"平均速度损失"(u-loss),目标函数里包含了一个由网络自身输出推导出的项——这就好比让一个人预测"自己说的话会造成什么后果",优化器在闭环里反复震荡,训练方差极大,收敛不彻底。

第二个缺陷是引导机制的"死板"。无分类器引导(CFG)是提升生成质量的关键技术,但 MF 训练时把 CFG 强度固定了,推理时用户无法调节质量-多样性的权衡——这等于剥夺了生成器最重要的一个调参手段。

第三个缺陷是架构效率的"肥胖"。MF 依赖的 adaLN-zero 机制在处理多条件(时间步 t、类别标签 c、CFG 强度 ω)时把所有条件向量简单求和,条件多了之后互相干扰,参数利用率极低。

iMF 成功解决了这三个缺陷目标,通过将训练目标重新表述为更稳定的瞬时速度损失,同时引入灵活的无分类器指导(CFG)和高效的上下文内条件作用,大幅提升了模型性能。

论文链接: https://arxiv.org/abs/2512.02012

针对训练目标,iMF 利用 MeanFlow 的数学恒等式,将平均速度损失(u-loss)等价转换为瞬时速度损失(v-loss)。瞬时速度 v 等于网络在 t 时刻的瞬时导数,它的特点是:目标 v 与网络自身的输出完全无关,是一个纯粹的标准回归问题。这个看似简单的数学变换,把 MF 训练不稳定的根因直接消除了。

针对 CFG 灵活性,iMF 把 CFG 强度 ω、引导区间 t_min 和 t_max 一起编码为显式的条件变量作为额外输入传入网络。训练时从幂分布中随机采样不同引导强度,让网络学习不同 CFG 强度下的速度场分布;推理时,用户可以自由调节 CFG 强度,就像使用普通扩散模型一样自然。这个设计让 iMF 支持了 CFG 区间控制——只有当 t 落在某个区间内时才启用引导,超出区间自动关闭,给了研究者更多调控手段。

针对架构效率,iMF 摒弃了把条件向量求和的粗暴做法,转而将每类条件转化为多个可学习的 token,类别 8 个、时间步 4 个、CFG 强度 4 个、引导区间 4 个,与图像 latent token 沿序列维度拼接后联合处理。Base 模型参数从 133M 降至 89M,减少了三分之一,同时 FID 反而改善。

iMF 和MF对比图

三条改进的效果是叠加的。iMF 的消融链路清晰地记录了每一步的贡献:原 MF 基线 6.17 FID → v-loss 替换 5.68 → 灵活 CFG 4.57 → 多 token 条件 4.09 → Transformer 架构改进 3.39 → 640 epoch 长训练 1.72。每一步都有据可查,每一步的改善都可以归因到具体的修改点。

最终 iMF-XL/2 实现了 1-NFE FID 1.72,且这是从零训练、不依赖任何蒸馏取得的成绩。iMF 的 FID 优于所有依赖蒸馏的单步生成方法,包括 FACM-XL/2(蒸馏,FID 1.76)和 DMF-XL/2+(蒸馏,FID 2.16)。扩散模型领域的一个默认假设被打破了:高质量单步生成,不需要蒸馏。

更值得关注的是 2-NFE 时 iMF 的 FID 降至 1.54,已经非常接近主流多步扩散的水平(SiT-XL/2+REPA 为 1.42 @ 数百步)。单步模型与多步模型的性能差距,第一次缩小到了这个量级。


像素监督:从边缘到正面竞争

自监督视觉预训练领域近年来有一个明显的主流叙事:像素空间已经过时,潜空间才是未来。

DINOv3 是这个方向的代表——将图像通过 VAE Tokenizer 压缩到低维潜空间,再进行对比学习,在多项视觉任务上达到了 SOTA,逐渐被视为"正确答案"。

这个叙事的隐含前提是:在大规模训练场景下,像素级自监督天然不如潜空间方法,因为像素空间的高维、冗余、多噪声特性让学习效率更低。

Pixo(pixel supervision) 要检验的正是这个前提。

MAE 已经证明,像素空间的掩码自编码器在大规模训练下是一个简单而高效的选择。Pixo 则把这个思路推向极致:在 20 亿张网络爬取图像上,系统性地探索像素监督的上限,并在预训练任务、模型架构和训练策略三个层面对 MAE 做了全面增强。预训练任务设计得更具挑战性,架构针对大规模高效训练做了优化,训练策略引入了自筛选机制自动过滤低质量数据,最小化人工干预。

Pixio 对 MAE 进行的关键更新

结果没有出现预期的"像素完败"局面。在深度估计、前馈 3D 重建、语义分割、机器人操控等多个下游任务上,Pixo 与 DINOv3 正面竞争,各有胜负。

这意味着像素监督在大规模场景下并非不如潜空间方法,只是需要更强的任务设计、更大规模的优质数据和更精细的训练策略。

两种范式各有其适合的场景:像素监督在需要保留完整视觉细节的任务上可能更有优势,而潜空间方法在语义理解类任务上更占优。

两种范式的竞争才刚刚开始,Pixo 的价值在于证明了像素监督的边界还远未到达——在 20 亿规模的数据上,它依然是一个有力的竞争者,而非被淘汰的遗产。

论文链接: https://arxiv.org/abs/2512.15715

结语

盘点完何恺明近期的五篇论文,一个值得深思的问题浮现出来:扩散模型统治图像生成五年,这个"统治"到底有多扎实?

归一化流在效率上的结构性缺陷,是可以通过放弃"精确逆"来修复的;

扩散模型的训练目标不稳定,是可以通过换掉噪声预测目标来改善的;

单步生成必须依赖蒸馏的假设,是被 iMF 用从零训练的 FID 1.72 直接打破的。

甚至在视觉推理和自监督学习领域,何恺明团队也在用最小化的视觉架构挑战语言模型的传统领地,而且赢了。他们不是在已有的游戏规则里优化指标,而是在重新定义问题本身的前提。他们用返璞归真的方式、"大道至简"的风格提出新的思路,这些思路对于传统方案来说,是颠覆性的改变。

同时,这五篇论文也反映了他们一个连贯的战略判断。扩散模型不是终点,而是某个更高效范式出现之前的过渡阶段。流匹配是他们的答案,iMF 和 BiFlow 是这个答案最有力的支撑。他们从底层基础(归一化、去噪目标函数、流模型设计)出发,重构视觉生成与理解的理论框架。

接下来的问题是,这个判断会不会在 2026 年成为整个生成式 AI 领域的共识——而这一次,何恺明的团队已经把路标立好了。

雷峰网

]]> 人工智能 https://www.leiphone.com/category/ai/dIG98W2KaEKFQ5Xp.html#comments Tue, 12 May 2026 14:26:00 +0800 《Science》最新专访:中国材料科学领域顶级学者李昊和AI for Science的三项代表性工作 https://www.leiphone.com/category/ai/GI33oajsC5xZEdmF.html

近日,国际顶级学术期刊《Science》发布专题报道,聚焦全球前沿材料科学领域的顶级学者。材科源图(MatSource)董事长李昊教授在报道中接受专访,分享了他对材料科学未来发展的深刻洞见。

全新格局与新范式

“ What we need is a new landscape, a new paradigm. ”——材科源图董事长李昊教授

李昊教授在接受《Science》采访时提出的这一核心观点,不仅直击了传统材料科学“高成本、长周期、依赖试错与经验”的发展痛点,更深刻洞察了当前行业所处的关键转型期。他指出,随着人工智能与数据驱动方法的快速发展,未来的材料研发必须突破“单一材料、单一性能”的局限,向复杂系统建模、跨尺度设计与智能化发现全面迈进。 这不仅仅是研究工具的迭代升级,更是科研思维与底层范式的根本重塑。 正是在这一前瞻性判断之上,材科源图确立了清晰的企业愿景:以数据与智能为核心驱动力,推动AI赋能材料创新进程,引领产业生态变革。

顶刊印证,技术筑基

在这次报道中,《Science》特别提到了李昊团队近年来在AI for Science方向的三项代表性工作,分别发表在 Angewandte Chemie、PNAS 和 Chemical Science。这三项工作分别围绕 AI Agent、机器学习势函数、实验材料数据库与数字平台展开,也从不同角度展示了“数字材料生态”如何服务于材料发现。

第一项工作发表在《Angewandte Chemie International Edition》(德国应用化学)。该研究将真实实验数据库与AI智能体相结合,用于固态电池材料发现。李昊团队基于固体导体,特别是含氢材料等数据,构建了高质量实验数据库,并利用AI智能体从数据库中挖掘新的材料规律和潜在电池材料。报道中特别提到,这项工作可能是较早将真实实验数据库、AI智能体和新型电池材料发现系统结合起来的综合性研究。文章发表后,也引起了不少同行关注,并推动了后续关于AI智能体用于科学发现和电池材料研究工作。

第二项工作发表在《Proceedings of the National Academy of Sciences》(美国国家科学院院刊)。该研究聚焦超氢化物,也就是含有高密度氢的氢化物材料。以钙氢化物为例,传统上人们熟悉的是 CaH₂,但在一定条件下,钙也可能形成 CaH₄ 甚至 CaH₆ 等超氢化物。然而,这类超氢化物的形成机制长期并不清楚。李昊团队与合作者结合实验、AI模型驱动的模拟和材料理论,揭示了固态钙氢化物表面的局部熔融可能促进超氢化物形成。这一发现不仅加深了人们对高氢密度材料形成机制的理解,也为设计潜在的高密度储氢材料和超导相关材料提供了新的思路。

第三项工作发表在 《Chemical Science》。这项研究更系统地提出并展示了“数字材料生态”的概念:通过高质量数据库、数字材料平台、AI智能体、理论分析和实验验证的结合,将材料发现从一次性的、分散的研究过程,转变为可积累、可复现、可扩展的体系化流程。报道中提到,该研究将数字平台用于材料设计与分析,并与AI智能体和实验验证相结合,从而加速氢储能材料研究。这也与李昊团队近年来在数字催化、固态电池、氢能材料和材料数据库平台方面的整体布局高度一致。

重塑新范式:“数据-智能-实验”研发闭环体系

《Science》的报道,印证了新兴科研范式正从前沿探索走向全球共识;而材科源图的使命,则是将这一国际顶尖共识转化为切实可见的产业生产力。

真正的产业赋能,绝非停留在算法预测的“纸上谈兵”。为此,材科源图在业内率先确立了“数据—模型—智能—实验”的全链路研发闭环体系,并同步构筑起四大核心技术壁垒。 机制创新与底层技术相辅相成,共同为数字材料生态的产业化落地提供强劲支撑:

百万级真实材料数据库与AI加速标注能力

全球首个百万级真实材料数据库,业内首创多模态图表解析算法,自研高效标注工具,通过 AI 加速数据提取与校验,为数字材料生态筑牢数据根基。目前,公司正加速推进千万级数据库建设,预计年内完成规模化构建,持续打造驱动数字材料生态发展的核心数据引擎。

材料预测全流程智能建模能力

已构建并验证160+高精度材料预测模型,具备面向复杂材料体系的全流程建模能力,构筑AI智能体核心护城河。

覆盖研发全流程的AI智能体体系

通过全链路优化框架,持续释放数据价值,让“数据可用”进阶为“数据可行动、可产出结果”,并具备跨场景迁移能力,可面向专用领域实现高效落地。

模块化布局的高通量反应系统构建

打造全球首个AI Agent驱动的高通量固相合成智能平台,实现设计与实验的高效闭环。

目前,材科源图的产业化能力正加速落地,已在绿色有机电合成、热催化、固态电池、氢能电催化、高分子材料等核心领域取得重要突破,并持续向具身智能等高端制造领域延伸,逐步拓展材料创新的产业边界,为头部企业提供定制化的材料研发解决方案。

此次材科源图董事长李昊教授登上《Science》专题,不仅是国际学界对材科源图技术路线的前瞻性认可,更是公司技术实力的一次全面展现。

未来,材科源图将持续深化“数据—智能—实验”的全流程研发闭环体系。随着数字材料生态的加速落地,材科源图将持续提供覆盖数据构建、理论模型与实验验证的技术支撑,推动材料科学加速迈向高效、精准与可持续的研发新范式。

原文链接:https://www.science.org/content/article/meet-young-global-community-materials-scientists-sendai

]]> 人工智能 https://www.leiphone.com/category/ai/GI33oajsC5xZEdmF.html#comments Mon, 11 May 2026 16:44:00 +0800 魔法原子登陆硅谷,行业首个「自进化具身大脑」发布 https://www.leiphone.com/category/ai/c9KxiRBbg7PfqVqH.html  英伟达、亚马逊都来了。

    作者丨齐铖湧

    编辑丨马晓宁

                                                                                                       

西时间 4 月 28 日,硅谷迎来一场关乎具身智能未来走向的重磅盛会。

大会全称为全球具身智能创新大会,简称 GEIS。作为首届全球性具身峰会,GEIS 不仅吸引了 Openmind、PrismaX AI、Cosmicbrain AI、Physis 等一众硅谷前沿 AI 企业深度参与,更汇聚图灵奖得主、密码学先驱 Martin Hellman,英伟达 GEAR Lab 高级研究科学家 Zhengyi Luo,亚马逊前沿 AI 与机器人研究院科学家 Haozhi Qi 等知名学者,展开前沿技术深度对话,成为一场高规格行业前瞻盛会。

值得关注的是,GEIS 主办方并非硅谷科技新贵,而是国内头部具身智能企业魔法原子 MagicLab。这也是中国具身智能企业首次走出国门,以主办方身份在硅谷发起全球行业顶级对话。

首届 GEIS 大会上,魔法原子不仅发布多款硬核新产品,还直面当下具身智能行业的真实痛点与核心问题,输出了一套极具穿透力的底层技术发展路径。

01


具身赛道面临哪些 “真问题”?

当下具身行业呈现明显割裂现状:我们一边被网络上机器人端咖啡、分拣快递的演示视频惊艳,一边又看到机器人退出工厂、无法落地商用的窘迫现状。

这背后折射出一个不容忽视的行业现实:人形机器人从 “能完成简单动作” 到成为 “生产力工具”,仍受制于几大核心瓶颈。

例如,机器人大脑缺乏基础物理常识,动作容易变形,难以稳定完成既定任务;灵巧操作层面,灵巧手普遍存在感知迟钝、力控不准的问题,极易捏碎易碎物体,日常看到机器人捏爆葡萄、鸡蛋便是典型案例。此外,人形机器人本体普遍存在下盘不稳的短板,难以胜任高强度重体力作业。

以上种种,都是制约机器人进化为通用生产力工具的关键瓶颈。

针对行业痛点,GEIS「具身智能本体进化」论坛上,英伟达 GEAR Lab 高级研究科学家 Zhengyi Luo、亚马逊前沿 AI 与机器人研究院科学家 Haozhi Qi、Chestnut Robotics 创始人 Evan Tao、XGSynBot 创始人 Zizheng Li 围绕行业瓶颈展开了深度研讨与激烈交流。

与此同时,针对上述产业痛点,本次大会主办方魔法原子一次性发布三款核心产品:全域世界模型 Magic-Mix、新一代灵巧手 H01、旗舰人形机器人 MagicBot X1。

某种意义上,这是行业首次从 “数字大脑” 到 “物理本体”,对底层痛点进行系统性、全链条的完整解答。

02


机器人如何拥有 “物理直觉”,

并实现 “自进化具身大脑”

在所有产业难题中,最让业界头疼的,莫过于具身大脑的泛化能力难题。

给机器人下达 “把桌上的杯子归位” 指令,它或许能稳稳拿起纸杯,但遇到光滑玻璃杯就容易失手出错。

根源在于,当前行业多数企业沿用传统 VLA(视觉 - 语言 - 动作)模型路线。VLA 能让机器人听懂指令、做出对应动作,理解 “杯子”“桌面”“清洗” 等开放语义,却无法真正理解物理世界规律,不清楚玻璃杯比纸杯更重、表面更易打滑。

真正可用的通用机器人,既要能执行任务,更要能理解任务本身。懂得轻柔拿捏易碎物品、果断搬运重物,区分 “捏鸡蛋” 与 “搬箱子” 的发力逻辑。

行业亟需打造一颗兼具物理常识、本能反射能力,且能够持续迭代进化的具身大脑。

本届大会上,魔法原子正式发布自研全域世界模型 Magic-Mix,也是本次 GEIS 最核心的技术成果之一。

Magic-Mix 采用 WAM+Creator 双模块协同架构,分别负责空间理解与任务生成。其引入世界模型 WAM 技术路线,让机器人建立物理常识认知,具备行为后果预判能力。与传统 VLA 模型不同,世界模型不仅能理解任务指令、承载执行策略,更能自主学习物理规律、预判行为结果。

比如执行长线程任务时,可避免误差持续累积。以倒水场景为例,抓取杯子偏移一毫米,最终就可能全程洒水;再如抓取桌面透明软塑料杯并移送至托盘,夹持力过大会挤压杯壁导致水流上冲,抓取点位偏高容易倾覆,移动速度过快还会产生液体晃荡泼洒效应。

而 Magic-Mix 搭载的视频与动作双专家协同训练模式,能够持续学习真实物理规律,让机器人理解并遵循基础牛顿力学,在行动之前提前预判后果。

过去机器人一旦出错就直接宕机停滞,更谈不上能力与场景泛化。如今 Magic-Mix 赋予机器人物理直觉与容错自纠错能力,通过学习失败样本的图像特征,让机器人识别错误形态,在执行过程中提前修正动作、规避失误。同时,为解决行业普遍的数据饥荒难题,内置 Magic-Mix Creator 数据引擎可在虚拟环境中批量生成合成数据,将真机有效数据规模瞬间扩充万倍。

相当于魔法原子为机器人搭建起专属 “虚拟训练场”,为世界模型训练提供底层数据集支撑,大幅提升开放环境下的泛化决策能力。

据魔法原子生态总裁顾诗韬现场介绍,目前魔法原子日均采集约 16000 条真实场景数据,高质量有效数据规模已突破 100 万小时;依托持续的数据合成能力,可实现万级体量的数据扩展。Magic-Mix Creator 的核心价值,就是通过大批量合成数据降低对真机实地采集的依赖,为大模型迭代训练提供持续稳定的高质量数据集。

Magic-Mix Creator 产出的大规模数据集,可反向供给 Magic-Mix 用于训练迭代,驱动模型大脑自主进化,持续精进泛化决策能力与物理直觉,让机器人适配更多元的落地场景。

03


告别 “僵硬木偶手”,

灵巧手如何实现 “未触先觉”

灵巧操作是行业另一核心痛点。现阶段机器人末端执行器多为简易夹爪或基础多指结构,普遍存在操作僵硬、感知迟钝的问题。面对生鸡蛋、精密电子元件等易碎易损物体,常因力控偏差造成损毁;同时响应滞后,近距离人机协作中极易发生碰撞安全隐患,比如快递分拣流水线人机协同作业时,机器人无法精准识别人体与精密物体,易引发安全事故与物料损耗。

对此,灵巧手亟需具备一项核心能力:在物理接触发生前,通过多模态预感知机制预判接触结果,提前调整自身行为姿态。

魔法原子早已洞察这一场景痛点,并提前布局技术解决方案。

本届 GEIS 大会上,魔法原子正式推出新一代灵巧手 H01,采用「近场感知 + 硬件闭环」的技术路线。整机重量仅 1 公斤,搭载 20 个主动自由度,高度复刻人手结构;集成 44 个高分辨率三维触觉传感器,具备 0-40mm 超近距动态感知能力与 5mm 级硬件闭环响应系统。

当灵巧手伸向玻璃杯时,可在 40 毫米隔空距离内感知物体、预判动作趋势;接触瞬间,5 毫米级硬件闭环系统能在毫秒级调整抓取力度,力感知分辨率精细至 0.05 牛顿。

这一具身领域的核心能力,被定义为「未触先觉」。

依托这项能力,机器人可熟练操作十余种人类常用工具,胜任医疗护理、工业精密装配等高要求、高价值交互任务,从根源规避人员受伤、物料损毁的安全隐患,推动机器人大规模落地通用任务实操场景。

04


如何让机器人真正成为生产力

对于全栈布局的具身智能企业而言,本体能力是综合技术实力最直观的体现。

魔法原子在人形本体领域迭代速度领跑行业:2023 年实现人形机器人咖啡拉花,2024 年 1 月完成电驱机器人空翻,同年 12 月落地多机协作工厂作业,多项成果均为行业领先、全球首次实现。

本次 GEIS 大会上,魔法原子又推出全新旗舰款人形本体机器人,其中旗舰机型 MagicBot X1 采用经典「大脑 + 小脑」双层控制架构。

顶层由 Magic-Mix 全域世界模型负责高层级任务规划,统筹行进路线与作业目标;底层小脑依托自研控制算法,实现毫秒级高动态平衡控制。

硬件配置上,MagicBot X1 身高 180cm、体重 70kg,全身配备 31 个主动自由度,运动范围提升 50%;自研关节极限瞬时扭矩高达 450N・m,核心力量优于普通成年人。

足以轻松满足工业场景双臂 20kg 高强度负重作业需求,搭配双电池热插拔系统,可实现 7×24 小时不间断连续作业。它不再是实验室里的演示样机,而是真正为重载作业而生的工业级具身本体。

叠加新一代灵巧手与全域具身大脑的协同赋能,魔法原子人形本体将加速从实验室走向工厂、家庭等真实场景,有望在 2026 年实现规模化商用交付,成为真正的全能型生产力载体。(雷峰网)

05


激烈无比的具身卡位战

毫不夸张地说,当前具身智能赛道正值烈火烹油的发展阶段,行业融资额度持续走高,企业宣传节奏不断加快,各类 “全球首个”“世界第一” 的头衔层出不穷。

但有一个核心问题,足以让多数企业难以作答:产品何时能够真正实现通用化落地?

即便是拥有 Optimus 量产消息加持的马斯克,面对机器人如何顺滑融入生产与生活的命题,仍然面临落地难题。

想要破解这一行业共性问题,离不开清晰长远的战略布局。在这一点上,魔法原子将目前的实践探索总结成十二字:定义问题、系统破局、生态卡位

定义问题,就是锚定具身机器人在真实场景中的核心卡点。正如前文所述,如何让具身大脑建立物理直觉,遵循客观规律自主决策执行,而非机械复刻语言指令、亦步亦趋;如何让灵巧手实现未触先觉,在物理接触前完成预感知与预判,保障后续操作精准稳定。

只有精准定义行业核心难题,才能在技术研发上抢占先发优势。目前魔法原子已实现软硬件全栈自研,核心硬件覆盖全关节模组、灵巧手、减速器、驱动器等关键零部件;算法层面在多模态感知、具身操作、运动控制、自主导航等领域构筑领先技术壁垒。

所谓系统破局,并非依靠单一爆款产品单点抢占市场,而是搭建「软硬一体、场景闭环、生态协同」的完整产业体系。

硬件层面,魔法原子坚持系统级全栈自研路线,核心软硬件自研率超 90%;软件层面,构建从真实场景数据采集、大模型训练迭代,到机器人落地优化的完整数据闭环。

产品布局充分体现战略考量:魔法原子并未局限于人形机器人单一赛道,而是通过人形、四足两条核心产品线,搭建覆盖多元应用场景的产业网络。

在此基础上,企业开启更高维度的产业竞争。

仅靠单兵作战可以打造优质产品,却难以短期内推动产业整体变革,更无法重塑社会对具身智能的认知。想要真正引领行业发展,必须搭建强大完善的生态体系,让生态内每一个参与主体都成为价值创造与技术迭代的共建者。

06


从 “单兵作战” 到 “森林体系” 的生态思维

此次在硅谷主办国际性行业大会,足以体现魔法原子作为国内头部具身企业的综合实力:不仅具备人形本体研发能力,更拥有顶尖模型算法自研实力;视野不再局限于国内资本与本土市场,而是具备全球化布局格局。

除三款硬核新品之外,魔法原子生态总裁顾诗韬在本次 GEIS 硅谷大会上,首次对外披露长期发展战略:2036 年冲刺 140 亿美元营收,未来五年投入 10 亿美元建设全球开发者生态。

从学术研究到产业落地,行业共识已然清晰:具身智能产业终局,绝不会依靠单一企业单打独斗覆盖所有工厂与家庭场景。

英伟达数十年的生态布局,为行业提供了成熟参考范本。凭借长期主义的战略远见与持续巨额投入,坚守战略定力,最终构建起软件、硬件、系统、开发者深度耦合、难以替代的产业生态。

国内具身企业同样有机会成长为机器人领域的 “英伟达”。GEIS 大会上,魔法原子明确全球化战略目标:2036 年冲刺 140 亿美元营收,未来五年投入 10 亿美元深耕全球开发者生态。

这只是第一步。后续企业将通过「千景共创(Co-Create 1000)」计划,在全球拓展 1000 家生态合作伙伴,落地打造 1000 个标杆应用场景。

同时依托成熟可用的 Magic-Mix 世界模型与稳定可靠的 MagicBot X1 人形本体,吸引全球顶尖开发者、AI 企业及科研机构入驻平台开展二次开发。

这套平台化生态建设思路已初见落地成效:魔法原子已与硅谷头部 AI 企业 Openmind、PrismaX AI、Cosmicbrain AI、Physis 等正式达成战略合作。

这场跨国技术结盟,不仅完善了魔法原子在多模态前沿领域的技术版图,更为其全球化商业化落地按下加速键。

魔法原子要打造的,不只是一家技术产品公司,更是产业生态推动者、世界级具身智能产业组织者。

2026 年,注定是具身智能产业从技术 Demo 演示,向量产级生产力工具跨越的关键分水岭。回望这场落地硅谷的行业盛会,在不可逆的产业浪潮中,它标志着中国企业不再单纯依赖中国制造的供应链成本优势,而是凭借全域世界模型、高感知灵巧手、高动态人形本体构建完整技术闭环,在底层技术标准定义上掌握全球话语权。

中国智造引领全球机器人产业发展的历史性时刻,已然悄然拉开序幕。(雷峰网)

]]> 人工智能 https://www.leiphone.com/category/ai/c9KxiRBbg7PfqVqH.html#comments Mon, 11 May 2026 15:44:00 +0800 CVPR 2026 动态视觉智能观察梳理:Benchmark 之外的新考题已经出现 https://www.leiphone.com/category/ai/h0i6nhbwp9U7wFuL.html 如果把近几年计算机视觉的发展放在一个更长的时间尺度上去看,会发现整个领域其实一直在沿着一条非常明确但也非常受限的路径前进:

研究者不断把模型做得更大,把训练数据堆得更多,把单项 benchmark 指标推得更高,于是无论是分割、重建还是生成,模型在标准任务上的表现都在持续逼近“看起来已经足够强”的状态。

但如果把视角拉回到 CVPR 2026 前后这一批最新工作,会发现一个更值得警惕的变化正在发生:研究的重心,正在悄悄从“把答案做对”,转向“在不完美条件下依然能够持续理解世界”。

也就是说,这一轮进展不再只是精度层面的线性推进,而更像是对视觉系统基本工作方式的一次系统性松动。

问题在于,这种“强”,往往建立在一个并不真实的假设之上——默认输入信息是充分的、任务定义是清晰的、交互过程是单轮的、场景变化是可预期的。换句话说,过去的大多数视觉模型虽然在实验环境中越来越像一个“高精度求解器”,却依然很难成为一个真正能够在开放环境中持续理解、持续修正、持续适应的视觉智能体。

而 CVPR 2026 这一波工作最值得关注的地方,恰恰不在于它们分别把某个子任务的数字提高了多少,而在于它们几乎不约而同地开始挑战这个旧时代视觉系统最根本的四个默认前提:模型是否必须冻结、目标是否必须预定义、信息是否必须充分、输入是否必须结构化。

整个变化,是从交互式视频分割这里率先被撕开口子的。

从「用户修错」到「模型自学」

长期以来,交互式视频分割给人的印象似乎已经相当成熟:用户点击一下,模型修正一下;用户框选一下,模型继续传播掩码。看起来人机协同已经建立起来了。但康奈尔大学在《Live Interactive Training for Video Segmentation》中指出,这其实是一种很容易让人忽略的“伪交互”。因为在现有范式下,所谓交互只发生在输出层,模型的内部知识却是完全静止的。

这意味着什么?意味着当视频里出现遮挡、光照突变、主体分裂或者背景伪装时,模型第一次犯错,用户点击修正;下一次遇到同样的视觉模式,它大概率还会再犯同样的错。用户似乎一直在参与,但参与的只是重复劳动——用户并没有真的把自己的判断传递进模型的内部表征。

所以这篇论文真正想打破的,并不是“如何让点击提示更有效”这种局部工程问题,而是更底层地在追问:为什么我们默认推理阶段的模型必须是冻结的?为什么用户反馈只能被当成 prompt,而不能被当成即时学习信号?

LIT 的提出,本质上就是把交互式视觉系统从“提示—响应”结构,推进到了“反馈—吸收—再预测”的动态闭环。用户一次纠错之后,轻量级 LIT-LoRA 模块立刻完成局部在线更新,模型随即对当前视频的运动模式、遮挡关系和外观变化形成短时适应。于是,用户的点击不再只是修补当前这一帧,而是开始改变模型之后的判断逻辑。

这看起来像是一点点在线训练的加入,但它实际打破的是视觉推理几十年来非常顽固的一条边界:推理不再只是参数冻结下的被动执行,而开始拥有任务内自我更新能力。换句话说,视觉模型第一次开始在使用过程中“成长”。

而一旦“模型可以在任务中成长”这件事被打开,研究自然会往前追问另一层问题:如果模型拥有足够强的内部表征,它是不是甚至不需要显式训练,也能根据极少的上下文快速理解用户想要的目标?

这就引出了 INSID3 的价值。Politecnico di Torino、TU Darmstadt 与 TU Munich 联合完成的《INSID3: Training-Free In-Context Segmentation with DINOv3》,表面看是在做一个“免训练上下文示例分割”,但它真正挑战的是过去视觉分割领域对“任务泛化”的理解方式。

传统分割系统的泛化能力通常来自类别预训练、任务微调,或者额外训练一个 support-query 适配头。也就是说,研究界始终默认:想让模型理解一个新目标,就必须通过参数层面的新学习去注入任务知识。

INSID3 的反向论证则非常激进——作者认为,自监督基础模型 DINOv3 内部其实已经潜藏了大量跨像素、跨区域、跨语义层级的对应知识,这些知识不是不存在,而是过去的任务设计没有把它有效调动出来。

因此他们不再训练任何分割头,而是直接让参考图与查询图在冻结特征空间里建立密集语义映射,让“这一块是什么”的定义通过特征相似性自然传递。这意味着模型并不是通过新训练获得理解,而是在已有表征中被上下文示例即时唤醒。

这背后非常关键:LIT 证明模型可以从即时反馈里学习;INSID3 则进一步证明,模型甚至可能在不学习的情况下,仅凭上下文就完成任务临场重定义。前者是在打破“推理冻结”,后者是在打破“目标预定义”。

也就是说,视觉系统正在逐渐摆脱那种“训练时决定一切,测试时只能执行”的旧工业流程。

离开理想输入,进入真实场景

但当模型开始拥有这种临场适应与临场理解能力后,更尖锐的问题随之出现:现实世界提供给模型的信息,往往根本不像 benchmark 那样完整。这里,《Long-Tail Internet Photo Reconstruction》的出现就显得极其重要。

Cornell University 和 Kempner Institute 的研究者指出,今天几乎所有互联网三维重建方法之所以在论文中表现稳定,是因为它们长期依赖热门地标数据训练:照片多、重叠强、视角密、几何对应关系天然充足。

然而真实互联网世界的绝大多数地点并不满足这个条件。更多时候,用户上传的是几张零散的手机拍摄图,角度不统一,清晰度参差不齐,甚至主体只在少量区域出现。换句话说,模型面对的不是“信息充分的重建任务”,而是“信息极度稀缺下的结构猜测任务”。

这篇论文的深刻之处在于,它没有像以往那样继续在重建算法局部模块上缝缝补补,而是直接指出:问题根本不在推理器,而在训练分布。模型之所以不会处理长尾场景,不是因为它不会重建,而是因为它从未在“少照片、弱重叠、低覆盖”的真实互联网分布上形成过几何推理习惯。

于是 MegaDepth-X 的意义,是人为制造一种长期被 benchmark 回避掉的稀疏现实,让 3D Foundation Model 学会在缺信息、弱对应、低冗余条件下仍然建立结构认知。

到这里,视觉系统的第三个旧前提也被击穿了:模型不再被允许只在信息充足时工作,它必须开始具备从碎片线索中补全世界的能力。而这种“从局部线索恢复整体逻辑”的趋势,很快又被延伸到了三维资产理解与生成一致性问题上。

比如《Material Magic Wand: Material-Aware Grouping of 3D Parts in Untextured Meshes》看似只是一个三维材质分组工具,但它真正挑战的是视觉模型长期以来“只理解几何相似性,却不理解设计语义”的局限。

多伦多大学与 Adobe 研究院关注的是无纹理三维网格中的材质感知部件分组问题:在真实三维资产中,窗框、栏杆、瓦片、鳞片、果壳这类局部结构经常重复出现,却并不一定在几何上完全相同;但在后续材质编辑中,它们往往又需要被赋予同一种木材、金属或石材纹理。

这正是传统方法的短板。过去模型通常依据几何相似性来检索部件,因此更容易找到“长得像”的结构,却很难识别那些“形状不同但材质逻辑一致”的对象。雷峰网

对于设计师来说,真正重要的并不是两个部件是否足够相似,而是它们在整体模型的功能、位置和视觉组织中,是否应该被一起处理。如果模型只能回答“像不像”,它仍然停留在视觉表面;只有当它开始判断“这些部件是否应该共享同一种材质”,才算接近真实三维创作中的语义理解。

Material Magic Wand 的思路,是把二维图像里“魔棒工具”的交互逻辑迁移到三维网格中:用户只需点击一个部件,系统就自动找出模型中所有可能共享相同材质属性的其他部件。

为此,作者设计了 material-aware embedding,在编码三维部件时,不只看局部几何形状,也结合它在整体模型中的上下文结构信息,并通过监督式对比学习,让相同材质的部件在特征空间中更接近、不同材质的部件彼此区分。

这说明视觉模型正在从“识别物体是什么”,向“理解人类为什么这样使用这些物体”过渡。同样的逻辑,在 由魏茨曼科学研究所(Weizmann Institute of Science)提出的《Match-and-Fuse: Consistent Generation from Unstructured Image Sets》中被推到了生成端。

这项研究关注的是非结构化图像集合的一致性生成:输入不再是一张单图,也不是连续视频帧,而是一组共享某个主体、但在视角、时间、姿态和背景上差异很大的图像,比如商品展示图、人物相册或故事板参考图。

这类任务的难点在于,这些图像没有视频那样天然连续的时序约束,却又要求生成结果在主体身份、外观纹理和细节结构上保持一致。传统生成模型往往习惯逐张处理,因此很容易出现身份漂移、纹理变化或细节错乱,本质上是因为模型没有把“这一组图属于同一个整体语义系统”真正建模进去。

Match-and-Fuse 的做法,是把整组输入图像建模成图结构:每张图像作为一个节点,相关图像之间建立边连接,并在边上执行联合双图生成。这样模型能够先捕捉任意两张图之间的共享信息,再把局部一致性约束融合成全局一致输出。

同时,论文还利用稠密像素匹配,在扩散模型内部进行跨图特征融合,让不同视角下属于同一对象的区域共享潜在表示,从而无需额外训练或人工掩码,也能维持服饰纹理、商品细节、文字标识等细粒度一致性。

雷峰网

把这些工作放在一起看,会发现它们虽然分属视频分割、上下文分割、三维重建、三维编辑和一致性生成等不同方向,但真正共同推动的,其实是同一件事:视觉模型正在被迫离开那个过去被 benchmark 精心整理好的理想环境。

在那里,输入是完整的,目标是清楚的,图像关系是预设的,用户反馈也只是有限的补充;模型要做的,只是在一次推理里尽可能给出正确答案。但现实世界显然不是这样。它的信息往往是残缺的,目标会临时变化,用户会不断介入,不同视角和不同图片之间还隐藏着大量需要被主动整合的关系。

也正因为如此,这一批工作最值得关注的地方,并不是它们分别把某个任务做得更强,而是它们开始集体拆掉视觉系统过去赖以成立的那些默认前提:模型不再必须冻结,目标不再必须预定义,输入不再必须充分,图像也不再必须被单独处理。雷峰网

如果说过去的计算机视觉更擅长的是“看懂一张图、答对一道题”,那么现在的新一轮研究正在让模型学会的是另一种能力——在一个持续变化、信息不完整、关系高度交织的视觉环境里,边接收反馈,边补全认知,边重新组织自己对整个场景的理解。

]]> 人工智能 https://www.leiphone.com/category/ai/h0i6nhbwp9U7wFuL.html#comments Thu, 30 Apr 2026 21:39:00 +0800 担心被Skill替代的打工人发现:“根本不是那么回事” https://www.leiphone.com/category/ai/ntkufUQjQzmHXh5J.html “现在,和Skill协作成了我们的日常工作,但公司里也没见谁‘被Skill替代’而被裁呀。”一家跨境电商的运营赵磊向雷峰网吐槽道,语气里有点无奈,又藏着点庆幸。

在他看来,前段时间网上热议的“蒸馏同事”、“Skill替代打工人”更像是AI浪潮冲过来时,引发的下意识恐慌,但大家慌过之后发现:Skill不仅没让我变得清闲、无事可干,反而让我天天加班……

“只是靴子没有落地罢了。”程序员刘雨有着不同的看法,“把工作技能Skill化对不同岗位的冲击是不一样的,自然大家感受到的危机程度也不同。要说现在最悬的,可能就是我们程序员和运营。”

那么,事实的真相究竟是什么?喧嚣过后,冷静下来,我们有必要探究一下:“蒸馏打工人”是一件新鲜事吗?“Skill化”在无差别扫射所有人吗?面对层出不穷的AI工具和“AI替代论”,打工人手里到底有没有终极自救的武器?

为此,雷峰网对话了几位不同行业的一线从业者,试图深度还原、复盘这场由AI“蒸馏”引发的职场焦虑的真实样貌。

更多一手访谈素材和AI工具使用体会,欢迎添加作者微信IHAVEAPLANB-沟通交流。

01、Skill:一场包裹在AI外壳下的旧叙事

这场AI焦虑事件的起点是,4月初在 GitHub 开源上线的AI工具:同事Skill。该项目上线短短两周已狂揽超万颗星,一度登上了 GitHub Trending 全球趋势榜的前列。

项目的 slogan“将冰冷的离别化为温暖的Skill,欢迎加入赛博永生。”本意是把离职同事的技能、经验转化为Skill,继续为公司服务。

但很快这种“蒸馏成skill”的焦虑就蔓延到了在职员工身上。越来越多的公司要求员工编写Skill,直接拨动了员工“被裁员”那根最敏感的神经。更多不同见解,欢迎添加作者微信IHAVEAPLANB-交流探讨。

在不少员工看来,这种行为无异于卸磨杀驴。只是为了将打工人最宝贵的工作智慧“数字炼化后”,打着降本增效的幌子搞“人走Skill留”的套路。

但事实上,这种公司“蒸馏”员工技能、经验、知识的行为,在不少公司里由来已久,甚至对公司来说,这是有益于发展的一种必须之惯例。

早在AI普及之前,企业就一直在用各类方式沉淀员工能力。

从最古早的Excel 梳理工作流程,到CRM 固化客户经验、SaaS 工具规范操作,甚至是师傅带徒言传身教,这些都是把个人知识转化为企业数字资产的办法。而 AI 的出现,只不过是让这件事变得更高效、更数字化。

有长达十年资深工作经验的AI开发者葛工告诉雷峰网,通俗来讲“同事 Skill”就是通过消化员工的聊天记录、编写的文档、会议纪要等信息,将其作为上下文注入到 Agent 中。这样,Agent 就能像张三或李四一样和你协作,从而降低公司对某个具体员工真人的依赖。

“目前的 Skill 更多是为了解决存量问题。比如某个员工负责维护的项目,在他生病或离职交接时,Skill 能起到关键的缓冲作用。”葛工补充。

在他看来,同事Skill这类工具在业内根本不算新鲜话题。早在2025年底他就接到过不少企业的相关咨询,核心诉求高度一致:很多企业的核心知识都锁在员工脑子里,没有沉淀为数字资产,这给企业带来了很大的管理风险。

“比如在高精尖制造业或芯片行业,核心员工常以离职为筹码提出要求。所以,如何将员工的能力数字化、线上化,在企业方视角看来一直是个重要的问题,而现在刚好AI技术已经相对成熟让这件事落地了。”

“同事 Skill之所以一上线就引发了海量关注,是因为它让大家真切地感受到,AI 对文本和流程化工作的大规模替代真的来了。但如果员工在公司的角色仅仅是一个可以被打包的 Skill 而已,那难道说能让 Skill 替代真人到客户现场吗?根本不是这么一回事!”

而“反蒸馏Skill”作者邓小闲则观察到,在AI替代浪潮的冲击下,美国四大会计师事务所的校招录用率已经下降了30%,“不是年轻人不再需要做Dirty Work,而是他们可能失去了接触实际案例和真实场景的机会。初级岗位的消失,正在让应届生陷入某种‘想成长却无门’的困境。”

“我们现在正处于技术革命的转折点,经历着某种程度上的历史重演,技术变革对个人造成的精神打击、对未来的深度焦虑,不是一句‘技术进步’就能抹平的。”

在邓小闲看来,我们始终需要直面这种阵痛,无论来自什么专业背景,只要能率先将 AI 与垂直行业深度结合,“用懂 AI 的优势去弥补因失去 Dirty Work 而丧失的实战经验。”她强调道。

02、Skill并非“无差别扫射”

技术的成熟,往往意味着围猎的开始。但“蒸馏打工人”真的是在无差别扫射所有人吗?

并非如此。

事实上,哪些人群最容易成为首批“蒸馏”对象呢?葛工的答案非常明确:程序员和大厂运营人员。

“代码本身就是知识的沉淀,AI在Coding领域的进展极快。”他告诉雷峰网,即便是在阿里这样具备严格的人工审核机制的大厂,保守估计也有30%的代码是由AI编写的。而运营岗位则是因为人力投入过高,优化需求最迫切,所以或许会成为企业“Skill化”的重点目标。

然而,就算是这样,也并不意味着大部分程序员和运营人都很危险。

我作为一个marketing运营,所感受的事实与网上说的‘被Skill替代’是完全相反的。”在这个问题上,资深运营赵磊有着不一样的看法。更多访谈实录,欢迎添加作者微信IHAVEAPLANB-沟通交流。

“以前我们团队的实习生每天都在做数据统计、修改 SEO 文章这类机械重复的Dirty work,120 元的日薪、两小时通勤,结果往往就是实习生抱怨学不到东西待不久就跑了,管理者也带得很累。如今这类工作全被 Skill 接管了,实习生转而去做热点挖掘、Skill 优化、创意产出这类更高级的工作,不仅他们自己更有成就感,我们的工作效率也提升不少。”

结合在工作中的实际体会,赵磊明确透露,其实AI 提效、技能蒸馏这波趋势,早在 2023 年底就开始深度渗透运营岗位了,大家早就接受并且快速适应了。

赵磊认为,虽然当下Skill 化这波趋势短期内肯定会让一部分人感到沮丧、心里没底,但这是AI进入工作场景的过程中必然会出现的低谷期。只要把眼光放长远一点,就会发现也许事情根本不是大家想象的那样。

作为大众眼中的蒸馏“重灾区”人员,程序员刘雨坦言,Skill 类工具确实给他们程序员群体带来了真实的就业冲击,但也并非大家担心的那样一棍子打翻一船人。而且这项技术对个人和公司来说,都有着不少正向用处。

“特别明显的,去年 Q4 短短一个季度,大模型的代码能力直接出现了爆发式突破,Claude Code 写代码的能力彻底上了新一个台阶。以前需要耗费一个星期跑完的项目,现在用 Claude 这类大模型只要需求清晰一天就能跑出雏形,剩下的只需要人工复核,公司的整体开发节奏已经全面提速。”

刘雨告诉雷峰网,程序员这个岗位不像运营那样离真实业务目标很近,而是等业务需求拆到程序员他们这里,就只剩一个个标准化的执行任务。而AI 最擅长的就是搞定这类明确任务,一旦这些活儿被Skill类工具接手,普通开发者的价值瞬间就被稀释,因此在他看来,只有前端开发才是被冲击最严重的群体。

“公司确实裁了一些前端岗位,但又补招了一批其他研发岗,因为研发效率提上去了,公司业务扩大了,团队要干的活更多了,我们现在基本天天加班……”

其实,在哪些群体最容易被Skill替代这个问题上,邓小闲则给出了更普遍的判断标准:“容易被Skill化的职业群体,通常具备两个特征:高度重复且极易外包。”她以自己熟悉的法律行业为例,大批量的合同审查、基础案件材料撰写,本质上都是流程化产出。

根据Anthropic 3月份发布的《人类技能 AI 替代率雷达图》,未来AI时代最难被替代的不是坐在写字楼里的白领,而是需要“具身智能”的线下体力劳动者。

“这类工作需要运用四肢与真实世界的基础设施、真实的人进行复杂的物理交互,这是目前AI难以实现的。”邓小闲对此补充道。

她还总结了三个衡量一份工作是否会被替代的核心判断指标:真实世界交互的占比、工作的可SOP化程度、个人特色的联络强度。更多见解,欢迎添加作者微信IHAVEAPLANB- 沟通交流。

“如果你的工作多是处理虚拟数字、可重复三次以上、缺乏个人特色,那你被Skill化的风险就非常高;反之,如果你擅长面对面沟通、工作难以标准化、有独特的个人风格,那就很难被替代。”邓小闲补充道。

但驾驭Skill,也是必要之举

“虽然眼下,大家的焦虑劲儿已经过去了,也冷静下来了,但这并不意味着我们就不用理会Skill了。”证券研究员张晓强调。

“当敌人已经把武器对准你时,你甚至分不清他手里拿的是枪炮还是火炬,这种认知上的降维打击会让你陷入彻底的被动。”

对于职场人如何自救这个问题,几位从业者的回答不约而同趋向一致:面对AI,还是要主动出击。所谓自救,从来不是逃避技术浪潮,而是在围猎中主动撕开一道口子,守住自己的不可替代性。

那打工人应该怎么做?

1、在被蒸馏前,抢先安装“赛博外挂”

尽管出身于法律专业,邓小闲始终对科技行业抱有浓厚兴趣,一直在专注AI产品与技术的深入研究,如今的她是一名科技法律领域的AI产品经理。

邓小闲在最开始接触到“同事Skill”时,以为那只是一个技术圈的冷笑话。直到她看到这个项目不仅在GitHub狂揽上万颗星,甚至越来越多企业开始私下用其替代真人劳动力,但却没有任何人站出来探讨如何自我保护。 

于是她决定动手打造一套反制工具——反蒸馏 Skill ,用AI的力量对抗AI围猎。更多一手访谈实录,欢迎添加作者微信IHAVEAPLANB- 沟通交流。

从技术原理上看,反蒸馏Skill并没有高深的技术壁垒,核心逻辑简单却极具巧思。邓小闲在采访中表示,它本质上是基于提示词和上下文的引导,利用AI“擅长将具体内容升维、用空洞术语掩盖核心逻辑”的特点,将打工人的具体实操经验,重构为“正确但无用”的专业废话。

为了适配不同公司的管理颗粒度,她将反蒸馏程度分为不同档次:针对管控极严、层层审查的公司,可生成逻辑严密却无核心灵魂的文档过关;针对跟风要求、象征性交差的公司,可快速完成数字化形式主义任务,帮打工人“优雅地交出空洞文档”,而核心实操细节则牢牢留在自己的大脑里。

这场看似简单的技术反击,取得的成效远超邓小闲预期。反蒸馏Skill上线短短一周,全网传播量就飙升至500万。对于反蒸馏Skill爆火的深层原因,邓小闲认为它恰好击中了大家在算法时代,对于自身价值和尊严被消解的深度焦虑。

“其实反蒸馏Skill实践更像是一种安抚,告诉大家即使技术变革我们仍然有发挥主观能动性的角度。”

结合自身亲身经历,邓小闲直言,职场人要想在时代转弯时不被甩下车,就必须给自己加“润滑油”,唯有搞懂AI、真正把它用起来,才能构建起属于自己的生存防线。

2、现代职场分水岭:能否拥有“AI杠杆”

如果说“反蒸馏”是守住职业护城河的防御盾牌,那么主动掌握AI技术则是向未来索要红利的进攻利刃。

在人人皆可调用大模型的当下,真正的分水岭不在是否拥有AI,而在于是否具备将算法转化为个体进化的“超级杠杆”的能力,更多不同见解,欢迎添加作者微信IHAVEAPLANB-沟通交流。

刘雨坦言,他所在公司最新发布的招聘简章里,熟练使用 Agent 已被列为了硬性要求。“但 AI 还是有很多无法触及的边界,比如人与人之间微妙的人情考量、复杂的人际判断与临场决策。”他认为,当下市场正极度稀缺这类复合型人才:既具备深刻的业务与人性洞察,又能熟练将 AI 融入工作流程、才好实现效率最大化。

对于复合型人才在职场中的重要性,资深运营赵磊也深有同感,“运营人最怕的就是信息差,以前监控竞品得手动刷小红书、翻公众号,还得人肉整理。现在我用AI配合简单的爬虫工具,就能每天早上自动生成一份竞品动态报告。只要发现对方后院起火,我下午就能针对性地出个活动‘偷家’。

赵磊的想法很明白,在运营这个‘内卷’最严重的领域,真正的实战派早就放弃靠人工堆量了。如果说以前是拼体力,那么现在拼的就是调度AI去执行细活的能力, 这也是运营人留在牌桌上的必备杀手锏。

作为见证了AI在开发领域发展变迁的资深职场人,葛工对于这种不可逆的大趋势持全然接受态度。

“如果公司要求上交个人 Skill,那我给它就是了,个人的核心价值从来不在于已经固化的显性知识,而在于推导结论的思维过程本身,所以旧Skill永远无法替代会利用AI工具不断进化的新我,这也是人和算法的本质区别。”

基于这一人机本质差异,葛工对 AI 的职场影响有着更长远的判断。在他看来,AI 消除部分岗位只是短期表象,长期来看反而会间接催生更多新岗位。职场分工始终朝着精细化方向演进,AI 的介入只会加速职能的深耕与重塑,让岗位价值更聚焦于核心创意与深度判断。

“而且对我们来说,生在当下这个时代很幸运的一点是,AI 就像一面随时都在的镜子,既能让我们看清自己的能力短板和水平位置,又能在日常使用和磨合中,倒逼我们不断查漏补缺、自己更新,这样的成长机会,是以往任何技术都给不了的。”葛工语气笃定,言谈间透着十足的乐观。

邓小闲最后则用一句犀利表述精准戳中了几人共识的核心,直白道破当下职场突围的关键。“在现在的技术语境下,如果你只是在‘填空’,你会被AI取代。但如果你是在‘出题’,你就是不可替代的。”

在这个万物皆可“蒸馏”的时代,人之所以不可替代,不在于你守住了多少显性知识,而在于你拥有一种调度算法去解决复杂问题的“统帅直觉”。

这场红利突围,不仅是为了在算法时代求生存,更是为了在这个更高效的世界里,更自由、更从容地去当那个出题人。

毕竟,人类文明的每一次跳跃,从来不靠机械的正确,而靠那颗永不停止进化的心。

注:文中刘雨、赵磊、张晓皆为化名。

本文作者长期追踪AI行业动态与前沿技术,更多AI 行业深度资讯添加作者微信IHAVEAPLANB-交流沟通。


]]> 人工智能 https://www.leiphone.com/category/ai/ntkufUQjQzmHXh5J.html#comments Thu, 30 Apr 2026 17:20:00 +0800 马斯克“认怂”:HW3硬件被判死刑,FSD无监督版还要再等几年? https://www.leiphone.com/category/ai/w2wrgfyD9eKcsujG.html 美东时间4月22日,特斯拉2026年第一季度财报电话会议。

这本该是一场展示肌肉的庆功宴,结果却开成了“认错大会”。

当分析师把话筒怼到嘴边,追问那个被问了无数遍的问题——“无监督FSD到底什么时候能给普通车主用”时,那个曾经放话“两年内实现L5”的男人,这次居然怂了。

马斯克的原话是:“我只是在猜测,但可能是在第四季度。”(原文:“I‘m just guessing here, but probably in the fourth quarter.”)

注意那个词——“猜测”。

这不是那个自信爆棚的“硅谷钢铁侠”,这是一个被逼到墙角、不得不吐出实情的商人。

更炸裂的还在后面,他补了一刀,直接给全球400万HW3(Hardware 3.0)车主判了“死刑”:“HW3确实没有能力实现无监督全自动驾驶,它的内存带宽只有HW4的八分之一。”

这一刻,特斯拉FSD长达11年的“画饼史”,迎来了最尴尬的终局。

01、11年画饼,从“豪言”到“谎言”

如果你是一位特斯拉老车主,那么现在的感觉大概像是吞了一只苍蝇。

让我们把时间轴拉回2015年。那时候马斯克在《财富》杂志上意气风发,说“2年内实现完全自动驾驶”。

2017年没动静?没关系,2019年的Autonomy Day(自动驾驶日)才是重头戏。那天,马斯克对着全球媒体拍着胸脯保证:“2020年底,你们就能在车里睡觉,车自己跑完全程。” 

最关键的一句是:“无需新硬件,现有车辆OTA升级就能实现L5。”

就是这句话,让无数车主掏出了8000到15000美元(当时约合人民币5.6万-10.6万),买下了那个名为FSD的“未来”。

销售话术很诱人:“硬件永不过时,只差软件更新。

结果呢?

11年,10多次公开承诺,每一次跳票都在刷新下限。当年的“硬件足够”,如今变成了“硬件垃圾”。

这不仅仅是打脸,这是对品牌信誉的“凌迟”。

02、400万车主的“沉没成本”

为什么这次反应这么大?因为这次马斯克承认了“物理层面的不行”。

以前可以说软件没写好,现在直接说是硬件太烂。

HW3采用的是14nm工艺,算力144 TOPS;而现在的HW4(AI4)是7nm工艺,算力720 TOPS,内存带宽更是HW3的8倍。

这中间的鸿沟,不是靠写代码能填平的。

马斯克现在的态度很明确:HW3车主,你们被抛弃了

同时,给出的“补偿方案”更是充满了资本家的傲慢:

这就好比你花全款买了张头等舱机票,临登机告诉你飞机引擎带不动,要么加钱升舱,要么去坐经济舱的“特供版”。

荷兰车主Misha已经牵头在欧盟发起集体诉讼,中国也有车主向监管部门举报“虚假宣传”。

雷峰网得知,二手市场上HW3版本的特斯拉已经开始大幅贬值,买家一听是HW3,直接摇头:“那是电子垃圾。”

03、纯视觉路线的“至暗时刻”

如果说对车主的背刺是“内忧”,那被Waymo甩在身后就是“外患”。

现在的自动驾驶圈,特斯拉和Waymo完全是两个画风。

Waymo走的是“多传感器融合”路线,激光雷达、高清地图、摄像头全堆上。虽然贵,但稳

根据Waymo 2026年Q1的数据,人家已经在美国11个城市(旧金山、洛杉矶等)实现了Robotaxi商业运营,周订单破50万,全无人行驶里程破2亿英里,零重大安全事故。

反观特斯拉,坚持“纯视觉+廉价硬件”。马斯克试图用算法去弥补硬件的短板,结果就是:软件想飞天,硬件在地上爬。

Waymo的高管在接受《Electrek》采访时,那句暗讽简直是杀人诛心:“无监督自动驾驶不是猜时间,是用数据和安全证明,靠画饼无法解决实际问题。”

特斯拉现在的尴尬在于:为了维持低成本优势,硬件不敢堆料;硬件不堆料,软件就跑不通;软件跑不通,FSD的商业化闭环就永远是PPT。

04、估值逻辑的崩塌

对于华尔街来说,FSD不仅仅是一个功能,它是特斯拉高估值的“信仰支柱”。

长期以来,市场愿意给特斯拉175倍的市盈率,就是赌它能从“卖车的”变成“卖服务的”自动驾驶巨头。

但现在,这根支柱裂了。

接下来,特斯拉将面临三大拷问。

此情此景,马斯克在电话会上那句无奈的“我希望不是这样,但现实就是如此”,听起来更像是一声叹息。

这声叹息,宣告了特斯拉“画饼时代”的终结。

05、结语:信任比黄金贵,但马斯克把它卖了

对于那400万HW3车主来说,这是一场长达7年的等待,最终等来了一场空。

他们成为了特斯拉技术路线试错的“小白鼠”,也是马斯克激进商业策略下的“牺牲品”。

2026年第四季度FSD能不能落地?天知道。

但有一点可以肯定:那个只要马斯克画个饼,大家就抢着买单的时代,彻底过去了。

现在的马斯克,不再是那个能预知未来的“硅谷钢铁侠”,他只是一个为了财报数据,不得不承认硬件不行、不得不推迟交付的普通CEO。

这不仅是FSD的跳票,更是马斯克“神格”的坠落。


]]> 人工智能 https://www.leiphone.com/category/ai/w2wrgfyD9eKcsujG.html#comments Thu, 30 Apr 2026 17:01:00 +0800 SpaceX 招股书首次深度曝光,华尔街多空激烈对线 https://www.leiphone.com/category/ai/y228id3tl4peblUV.html 4 月 20 日,SpaceX 尘封已久的 S-1 IPO 招股书正式对外披露。

这家瞄准 1.75 万亿美元超高估值,计划募资 750 亿美元冲击史上最大 IPO 的公司,眼下格外引人注目。要知道,现在美股市场整体难称得上景气,SpaceX 自己还在持续大额亏损,却敢逆势冲纳斯达克,这份底气,难免让人好奇背后到底藏着什么。

这份招股书,不只是 SpaceX24 年经营的全景答卷,更是马斯克太空野心、业务博弈与资本玩法的完整说明书。接下来,我们短平快拆解文件里暗藏的几大核心真相,一文看懂这场史上最大太空 IPO。

01、星链和猎鹰 9 号是赚钱发动机,AI、星舰持续烧钱

招股书首次公开 2025 全年未经审计财报,从财报来看,其业务盈利分化堪称极端,“天上赚钱、地上烧钱” 的冰火两极格局一目了然。

SpaceX 2025 全年总营收 150-160 亿美元,同比大涨 33%,增速远超行业平均水平;但全年净亏损 49.4 亿美元,直接从 2024 年盈利 7.91 亿转为大额亏损。公司总资产 920 亿美元、负债 508 亿、账面现金 248 亿,看似资金充裕,实际上根本经不起烧。

为什么这么说?

先来看赚钱这一头。星链卫星互联网是目前主要的现金牛,年营收超百亿、运营利润率高达 44%,撑起公司六成以上收入,全球 550 万 + 用户覆盖 70 多国,战乱应急、偏远通信、航空海事全场景落地,现金流稳定且壁垒极高。

此外,猎鹰 9 号火箭发射是稳定基本盘,全球 75% 以上商业发射份额在手,NASA、军方订单源源不断,持续提供平稳现金流。

再看烧钱这头。xAI 人工智能、星舰火星项目,目前成了无底洞式烧钱黑洞。仅 xAI 一年亏损就高达 64 亿美元,直接吞噬星链全部利润,成为整体亏损的核心。

“SpaceX 本质就是星链养全家。太空迭代、AI 研发、火星探索全是长周期高投入,不靠 IPO 海量资金,根本撑不住长期技术扩张。” 航天产业链从业者王磊坦言。

事实上,这些年来,马斯克对外不断渲染火星移民、在轨 AI 算力、星际工业化万亿蓝图,而招股书风险提示章节,却直白戳破浪漫叙事,回归残酷商业现实。

招股书里明确标注:火星载人登陆、轨道 AI 数据中心、深空自动化制造,全部处于极早期阶段。太空极端环境、设备高故障率、研发成本失控、技术迭代难度远超预期,短期内无法实现规模化商业盈利,也没有明确落地时间表。

极具反差的是,投行估值模型里,太空 AI、星际相关业务,贡献了整整 42.9%的估值,对应 7500 亿美元市值。也就是说,SpaceX 近一半天价估值,都来自尚未落地、无法盈利的未来故事。

这就相当于告诉所有人:火星是情怀,太空 AI 是想象。真正能支撑 1.75 万亿估值的,只有实实在在赚钱的星链。

02、用 42% 股权,拿捏住了公司 79% 投票权

比财务数据更颠覆市场认知的,是 SpaceX 双层超级股权架构,马斯克用极少股份,牢牢锁死公司绝对话语权。

从招股书看,公司拆分 A、B 两类股票:公众流通的A 股 1 股 1 票,马斯克及核心团队持有的B 股 1 股 10 票。马斯克个人持股仅 42%,却手握 79% 总投票权。无论散户、机构买入多少股票,都无法干涉公司战略、收购决策、技术路线。

更值得关注的是,IPO 启动前马斯克斥资 14 亿美元从员工手中回购股份,进一步集中股权、巩固控制权;上市后他将同时兼任 CEO、CTO、董事会主席,权力高度集中,没有任何制衡。

这一架构引发华尔街热议,哥伦比亚商学院教授公开评价:SpaceX 并非传统上市公司,而是 “马斯克的私人太空帝国”,投资者买入的只是马斯克的个人信任票,而非公司决策权。

要知道,在全球科技企业纷纷平衡创始人与股东利益的当下,这种极致集权既体现马斯克的掌控欲,也暗藏巨大风险 —— 一旦其决策失误,公众股东无任何纠错机制,只能被动承担后果,这也是普通投资者最需警惕的核心风险点。

海外一级市场资深投资人周沐告诉雷峰网:“这就是马斯克的私人太空帝国。不管 IPO 多少散户进场,公司永远他说了算。航天 + AI 赛道窗口期极短,集权能提速决策,但也把所有风险押在了创始人个人判断上。”

03、华尔街多空激烈对线,泡沫与价值开始拉扯

招股书曝光后,美股投行也瞬间分成两大阵营,外网争论持续刷屏,成为 2026 年全球资本最大话题。

看多阵营坚定看好:摩根士丹利认为星链独立估值超 5000 亿美元,叠加全球发射垄断、星舰长期潜力,1.75 万亿美元完全合理;木头姐公开预判,SpaceX 长期市值有望突破 3 万亿美元,是未来十年硬科技核心标的。

看空阵营疯狂警示:持续大额亏损、太空概念无法变现、创始人集权风险极高、低轨轨道资源有限,高估值泡沫极易破裂。瑞银、德意志银行纷纷提示,宏观波动、地缘冲突,都会随时冲击太空 IPO 估值。

目前的形势是,华尔街一半认太空刚需壁垒,一半怕故事炒泡沫。航天行业长周期、高风险、慢回报,本来就和短期炒股逻辑相悖,分歧恐怕只会越来越大。

此外,还有一个有趣的点是,招股书这次也曝光了马斯克与众不同的管理逻辑与资本理念,跳出所有美股常规玩法,极具个人风格。

招股书显示,此次 IPO 预留 30% 新股面向散户,而非全部给机构,理由是 “股东应是相信人类多行星化使命的人,而非短期套利者”,本质是通过 IPO 筛选 “太空梦想信徒”,而非普通财务股东。

同时,董事会批准天价绩效激励,若公司市值从 1.1 万亿涨至 6.6 万亿美元,马斯克将获得巨额股权奖励,彻底绑定个人利益与公司市值。

这种 “梦想优先、盈利其次” 的逻辑,在全球上市公司中几乎绝无仅有,也让 SpaceX 这次 IPO 显得更加另类。

04、结语

一份薄薄的招股书,把 SpaceX 的光鲜和无奈,全摊在了阳光下。

在不少人看来,它有星链这个稳赚不赔的基本盘,有星舰、火星移民的宏大理想,有 AI 带来的无限想象;但也有连年亏损的现实,有马斯克集权带来的风险,有靠 “梦想” 撑起的估值泡沫,还有那些遥遥无期的落地计划。

马斯克用了 24 年,把一家不起眼的私人火箭公司,做成了全球商业航天的龙头。这次 1.75 万亿美元的 IPO,不是终点,只是他太空布局的新起点。

距离 SpaceX 在纳斯达克挂牌,还有两个月,全世界都在看着 —— 这场史上最大的太空资本棋局,马斯克到底能下出怎样的棋,后续又会走向何方,我们只能慢慢等答案。


]]> 人工智能 https://www.leiphone.com/category/ai/y228id3tl4peblUV.html#comments Thu, 30 Apr 2026 16:51:00 +0800 IPO前夕砸600亿美金收购Cursor,马斯克的“阳谋”与“阴谋” https://www.leiphone.com/category/ai/YyxSmUuKujqkj0vN.html 4月22日清晨,SpaceX的一纸公告直接把硅谷的程序员们整不会了。

公告显示:SpaceX获得了一项期权,今年晚些时候将以600亿美元收购AI编程工具Cursor的母公司Anysphere;或者,作为替代支付100亿美元用于双方的AI合作。

消息一出,全球科技圈和社区直接炸锅。

要知道,就在两个月前,马斯克刚把SpaceX和xAI攒到一起,合并估值干到了1.25万亿美元。现在IPO窗口就在眼前,他又搞出这么个“600亿天价期权”+“100亿分手费”的霸气条款。

这哪里是做生意,分明就是在给华尔街写剧本。

下面咱们把这层窗户纸捅破,看看马斯克葫芦里到底卖的什么药。

01、600亿买“铲子”:战略卡位,还是IPO注水?

不管什么星辰大海太空蓝图了,咱们先算笔账。

要知道,在2025年1月,Cursor估值才25亿美元。而就在一周前,其融资估值也就500亿。

现在SpaceX直接激情溢价20%喊出600亿,还附带一个“不买就赔100亿”的豪气条款。

这根本不符合马斯克一贯“砍价狂魔”的人设啊。

除非,这600亿买的根本不是Cursor这家公司,而是它背后的三样东西。

第一,买的是算力“消化能力”。

SpaceX声明里特意提了一嘴:“将Cursor与SpaceX算力相当于‘百万块H100芯片’的‘Colossus’超级计算机相结合。”

这话翻译过来就是:我有全球最大的AI算力集群Colossus,但还缺个能把它变现的“收银台”。

Cursor有百万日活开发者,有20亿美元的ARR(年化经常性收入),这就是最好的变现出口。

第二,买的是“懂算力的人”。

Hacker News上有老哥扒得很深:这本质上是一次夹杂着人才收购、模型升级和算力消化的综合考量。

要知道,早在今年3月,Cursor的两位核心工程负责人Andrew Milich和Jason Ginsberg就已经跳槽去了xAI。

而且Cursor的核心模型Composer 2被曝是基于Kimi开源模型微调的,并非从零训练。

SpaceX看中的,是这支能驾驭大规模算力,并且能快速微调模型的顶尖工程团队。在AI下半场,懂怎么调度算力的人,比懂算法的人更值钱。

第三,也是眼下最现实的,买的是IPO估值助燃剂。

据此前报道,已完成与xAI合并的SpaceX,目前估值已达1.25万亿美元,并计划以最高1.75万亿美元的目标估值进行IPO。

为了撑起这个天价,马斯克必须向投资者展示他在AI应用层的统治力。

而Cursor是目前全球当之无愧最受开发者欢迎的AI工具,有数据显示,财富500强公司里超过50%都在用它。

把Cursor并入报表,SpaceX的AI故事瞬间就从“烧钱不断的大模型”变成了“真金白银的 AI SaaS收入”。

这账,华尔街爱看。

02、历史回响:巨头们的“军备竞赛”与马斯克的“阳谋”

回溯历史,不难发现马斯克不是第一个对AI编程工具下手的巨头,但他的玩法确实最野。

微软当年收购GitHub推出了Copilot,那是出于“防御”。作为地主,微软必须确保开发者留在Windows和Azure的生态里,这是一笔收“过路费”的生意。

而Salesforce收购Windsurf,则是“吞并”。

Hacker News上有用户提到了“Windsurf事件2.0”。

当年Salesforce 收购 Windsurf 后,便强行将其塞入自有生态体系,大刀阔斧改动产品逻辑、交互界面与使用习惯,全然无视核心老用户的体验诉求,最终导致大批忠实用户集体流失、纷纷出逃。

有此先例,如今市场普遍担忧马斯克接手 Cursor 后会重蹈覆辙,效仿 Salesforce 的粗暴整合方式,随意改动产品、强绑 SpaceX 与 xAI 生态,彻底毁掉 Cursor 原本的核心体验,逼走高度依赖它的程序员群体。

不过,为了避免诸如此类的未来风险导致600亿打水漂,马斯克也是想了一招——这次他玩的是“算力换股权”。

资料显示,xAI已同意向Cursor出租其自研芯片算力,用于训练代码大模型Composer 2。

这揭示了一个新趋势:算力即资本

Cursor虽然猛,但一直受制于OpenAI和Anthropic的模型依赖。现在抱上SpaceX 这条大腿,Cursor就有了摆脱巨头“断供”的底气。

顺理成章的,SpaceX通过出租算力实际上“参股”了Cursor的未来,双方现在是现实层面的利益共同体。

这比直接砸钱收购更鸡贼,也更高级。

03、SpaceX此举是否为了“割韭菜”?

在外网社区,尤其是Hacker News上,对这笔交易的讨论充满了火药味,简直是大型“吐槽大会”。

质疑派认为这是“IPO包装术”。

也有评论直言:“不知道收购AI代码工具跟航空航天业务有什么关系。” 

另外,许多开发者认为Cursor在IDE领域“几乎没有护城河”,甚至有人声称“认识的工程师年初就切换到了Claude Code”,此时花这么多钱收购Cursor真的值吗?

阴谋论派则看到了更大的图景。

在这个逻辑下,太空数据中心是太阳能电池板的“需求借口”,而Cursor则是数据中心算力的“需求借口”。层层嵌套的宏大叙事背后,是对IPO估值最大化的极致追求。

当然也有支持派,看到了“工程效率”的未来。

Cursor CEO迈克尔·特鲁埃尔(Michael Truell)回应称,这是打造最佳AI编程环境的一步。

不得不说,对于SpaceX这种极度依赖工程效率的公司,拥有一款顶级的内部AI编程工具,或许真能极大程度地降低研发成本。

04、终局:2万亿IPO与AI竞赛的“奇点”时刻

再回到最初的问题:马斯克到底打的什么主意?

答案其实藏在时间表里,2026年的IPO窗口正在逼近。其实这笔交易无论最终是否执行600亿美元的收购,SpaceX都已经赢了。

如果收购成功,SpaceX将拥有AI时代最核心的开发者入口,它的估值逻辑将从“航天公司”彻底转变为“AI基础设施+应用巨头”,2万亿美元的估值将有了坚实的支撑。

如果收购失败,SpaceX也能通过100亿美元的合作费(或算力置换)获得巨额现金流,并深度绑定Cursor的算力需求。

事实上,眼下的AI竞争已进入到全栈整合、全线作战的关键阶段。

放眼市场,Google有Anthropic和Gemini,微软有OpenAI和GitHub,而马斯克正在通过SpaceX整合“算力(Colossus)+ 模型(Grok)+ 应用(Cursor)+ 分发(X平台)”,来打造自己的堡垒阵线。

正如知名科技博主WallStreetSilv在X上所言:“马斯克正在试图用物理世界的火箭,去撞击数字世界的奇点。Cursor只是他手里的一块砖,他想砌出的,是一座通往2万亿美元市值的通天塔。”

在雷峰网看来,在这个故事里,Cursor是幸运的棋子,也是昂贵的筹码。


]]> 人工智能 https://www.leiphone.com/category/ai/YyxSmUuKujqkj0vN.html#comments Thu, 30 Apr 2026 16:45:00 +0800 专访Meta前技术总监,小扎为何又要裁掉8000人? https://www.leiphone.com/category/ai/XicHbX8UbBW6gNVe.html 01、裁员背后的残酷逻辑:AI效率革命与资本算计

"AI带来的效率提升十分明显,原本需三天完成的任务如今半天即可完成;新人进组后,原本前三个月难以开展工作,现在一周就能上手。"前Meta技术总监Gen对雷峰网时如此描述。

但效率提升的背后,是扎克伯格冷酷的资本算计。2026年,Meta预计资本支出将在1150亿至1350亿美元之间,几乎是2025年720亿美元的两倍,主要用于AI基础设施建设。这笔巨资投入需要削减人力成本来平衡。

更深层的原因在于,Meta正面临多重危机:

广告业务下滑:Insider Intelligence数据显示,Meta和谷歌在美国广告收入份额从2021年的50.5%降至2022年的49.5%,预计2024年将进一步降至43.9%。

TikTok强势竞争:TikTok在美国年轻人市场中逐渐取代Instagram和Facebook,Meta内部文件显示"年轻用户正逐渐用TikTok替代Instagram和Facebook"。

元宇宙历史包袱:Reality Labs部门自2020年起累计亏损超800亿美元,2025年单年亏损达191.93亿美元。

02、被裁员工的真实处境:从大厂光环到生存焦虑

"入职8年,经历过元宇宙的狂热,也熬过AI转型的阵痛,今天收到裁员邮件时,第一反应是:我的房贷怎么办?"一位自称Meta资深工程师的用户在LinkedIn上发帖。

在匿名社区Blind上,Meta员工的愤怒与无助更加赤裸:

"最令人难以接受的是,Meta公开宣称要裁掉表现不佳的员工,这让我们感觉自己背上了耻辱的标签。大家需要明白的是,我们并非表现不佳。"一位匿名员工说。

"连续多年超额完成任务,2024年生了一个孩子,然后就被解雇了。"另一位员工在Blind上抱怨。

更有甚者,Meta的裁员被指涉嫌年龄歧视。前高级总监Nicolas Franchet在诉讼中指控,Meta在去年裁员5%的计划中,高龄员工被裁比例远高于年轻员工。

田渊栋的遭遇更是令人唏嘘。这位在Meta奋斗了十年的华人科学家,论文引用次数超过18000次,刚带领团队完成Llama 4项目的关键工作,就与众多同事一起收到了裁员通知。他在X平台发文"欢迎联系我",瞬间变成人才市场,OpenAI、谷歌DeepMind、英伟达纷纷抛出橄榄枝。

03、Meta的内部困境:体制腐朽与AI商业化困局

"Meta已日落西山,内部体制存在严重问题。"前Meta技术总监Gen的判断毫不留情。

他揭露,Meta许多VP每日无所事事,不专注于实际工作,而是优先淘汰他人,再开展少量工作;这种环境对基层员工不利,基层员工常出现工作一天后就被通知停止该工作的情况。

更致命的是,Meta的大模型商业化处于早期阶段,尚无明显优于现有推荐算法的案例。"平台上大模型的使用流量仅占1%、2%,大部分仍采用传统推荐方式。"Gen指出,"在抖音类刷视频场景中,大模型表现远落后于传统推荐算法,因传统模型可记录用户每日数万次互动细节,大模型的上下文理解能力难以处理这类海量细节。"

Meta内部算力资源分配也极不均衡。"主要集中在研发下一代基础大模型的团队,产品组算力紧缺;因无论是大模型还是传统模型,运行AI应用均需GPU或CPU,产品组难以论证获取GPU资源的合理性,仅核心项目能获得较多GPU资源。"

扎克伯格的管理风格也备受诟病。"Meta此前以自下而上文化为主,基层员工可自主提出项目并推动,许多大项目源于小团队;目前转变为自上而下模式,领导下达方向后员工跟进,若领导思路不清晰,易出现多个团队重复竞争、员工揣测意图摸索工作的情况。"

04、启示:打工人的时代焦虑与生存智慧

Meta的裁员潮撕开了一个残酷的真相:AI时代的职场安全感,正在被算法一点点瓦解。

但裁员并非全然悲情。正如一位被裁员工在Reddit上写道:"被Meta裁员后的心路历程:从E4到PIP,再到重新出发。回顾这段经历,心中五味杂陈,有遗憾,有不甘,也有释然。"

对普通打工人而言,这场裁员潮至少带来三点启示:

第一,警惕"大厂光环"的陷阱。Meta的案例证明,即使是最赚钱的公司,也可能在最赚钱的时候宣布最大规模的裁员。2025年,Meta营收超过2000亿美元,实现净利润约600亿美元,却依然要裁员8000人。

第二,拥抱AI,而非恐惧。Gen指出:"AI带来的效率提升十分明显,原本需三天完成的任务如今半天即可完成。"与其担心被AI取代,不如学会利用AI提升自己的效率。

第三,保持职业敏感度。在Meta这样的大公司,绩效评估的核心并非实际贡献大小,而是"visibility"(曝光度),主要取决于开会次数和向上汇报频率。了解游戏规则,才能在游戏中生存。

扎克伯格的"效率之年"还要碾过多少人?答案或许藏在每一个打工人的职业规划里。

在雷峰网看来,当AI重构职场规则,我们能做的不是抱怨时代的残酷,而是让自己成为不可替代的存在。

毕竟,在这个算力换人力的时代,唯一能保护我们的,不是公司的承诺,而是自己的能力。


]]> 人工智能 https://www.leiphone.com/category/ai/XicHbX8UbBW6gNVe.html#comments Thu, 30 Apr 2026 16:31:00 +0800 Sora之父“跑路”背后的五大真相是什么? https://www.leiphone.com/category/ai/55omS4DRgRAktha9.html 2026年的硅谷,理想主义正在资本的炙烤下发出焦糊味。

不久前,OpenAI功臣、Sora项目灵魂人物、DiT架构发明人比尔・皮布尔斯(Bill Peebles)正式官宣离职。

这绝非一起简单的核心人才流失——在商业世界里,这好比登月计划临近点火,总工程师却愤然离场。皮布尔斯的出走,撕开了OpenAI“科技圣殿”的华丽外衣,暴露出其内部资本意志与科研理想的激烈对冲。

下面,本文将深度拆解这场撼动AI视频赛道格局的离职事件,还原其背后的商业逻辑。

01、IPO “逼疯” OpenAI,Sora 被活活 “断粮”

皮布尔斯离职的首要核心原因,是 OpenAI 冲刺千亿估值 IPO,引发公司战略彻底商业化变质。

在皮布尔斯这样的顶尖科学家眼中,Sora 从来不是一款普通的视频生成工具,而是探索 AGI(通用人工智能)的终极实验。

作为 DiT(扩散 Transformer)架构的缔造者,他始终坚信:AI 不该只是机械模仿图像,更要真正理解物理世界的因果律。正是这份理念,让他带队研发的 Sora,早期展现出颠覆行业的真实感与模拟能力。

但随着 2026 年 OpenAI 上市倒计时,华尔街的盈利预期彻底碾碎了纯粹的科研探索。Sam Altman 带领的管理层,为了满足美股上市严苛的财务要求,启动了冷酷的 “去科研化” 运动。

每秒吞噬海量算力的 Sora,从公司重点扶持的 “掌上明珠”,沦为财报上刺眼的 “负资产”。

在旧金山总部俯瞰湾区的办公室里,皮布尔斯无数次试图和管理层探讨 Sora 物理引擎的优化突破,可迎来的不是技术讨论,而是 CFO 冷冰冰的算力配给表。

原本承诺给 Sora 团队的 H200 及最新算力集群,被强行划拨给盈利更快的 ChatGPT 企业版。

这种落差极具讽刺性:曾经的天才科学家,不再深耕代码、攻坚技术,反而要每天在会议室和财务部门扯皮,卑微乞求本该属于自己的算力配额。

对皮布尔斯而言,这不仅是研发资源的匮乏,更是科研尊严的彻底践踏。他不愿沦为一家 “销售驱动型” 公司里,只负责修 Bug、对财报负责的高级打工人,最终在黎明前最黑暗的时刻,选择愤然离场。

02、版权官司缠身,Sora 被法务 “阉” 废了

逼走皮布尔斯的第二大关键推手,是 Sora 落地过程中,遭遇的毁灭性版权死局与监管黑洞。

作为追求技术极致的科学家,皮布尔斯在设计 DiT 架构时,核心思路正是依靠大参数与海量数据,激发出模型的智能涌现能力。可恰恰是 “训练数据从何而来” 这一问题,成了套在 Sora 身上、越收越紧的致命枷锁。

2025 年之后,全球版权监管全面收紧,OpenAI 也因此被推到风口浪尖,成为好莱坞乃至全球艺术界共同声讨的对象。好莱坞六大制片厂联合数万艺术家发起集体诉讼,要求 OpenAI 公开 Sora 每一张训练素材。

在公司内部,皮布尔斯的技术路径,与法务部门的 “避险策略” 爆发激烈冲突。为了规避监管风险,法务部要求对模型进行过度阉割:禁止生成特定艺术风格、特定人物面相、甚至特定物理轨迹的内容。

这让技术人陷入极致绝望:皮布尔斯在实验室跑出震撼全球的物理模拟效果,法务却一句 “不能用、有风险、触红线” 直接否决。原本流畅完整的世界模型,被层层审查剪成满是补丁的 “赛博残疾”。

对追求技术完美的匠人而言,看着自己的心血被政治正确和法律条文肢解,这种痛苦远超代码崩溃。Sora 因为版权和合规问题,公测计划比原定时间大幅推迟,在此期间项目每日的研发和 GPU 维持成本居高不下。

皮布尔斯彻底看清,在这样的环境下,Sora 永远无法 “满血” 落地,自己不过是守着一个毫无未来的实验室盆景。

03、核心团队集体跳船,Sora 已成 “孤岛”

皮布尔斯的离开,从来不是孤立事件,而是 OpenAI 核心团队被逼无奈的 “集体撤离”。

在他递交辞呈前后,Sora 另一位核心负责人蒂姆・布鲁克斯(Tim Brooks)早已率先离职,加盟 Google DeepMind;负责视频理解算法的多名 VP 级高管,也纷纷在 LinkedIn 更新离职状态。

这场高管层面的 “离职雪崩”,对 OpenAI 造成毁灭性打击。

硅谷人才流动遵循 “引力定律”:顶级大牛的离开,带走的不仅是个人,更是整套隐性技术文档、攻坚难题的技术直觉。这场高管离职潮引发连锁的反应,已致Sora 核心骨干流失率高达 40%。

曾经的 Sora 团队,几百名精英为攻克流体动力学模拟 Bug 通宵达旦,办公室常备行军床,满是科研热血;如今办公室空空荡荡,新员工对着前任留下的复杂注释一头雾水,空气中只剩焦虑与迷茫。

直至3月25日,OpenAI 官宣关停 Sora API 内测计划,全面转向纯企业级定制服务。

这意味着,那个曾承诺让每个人都成为导演的 Sora,已经名存实亡。行业内普遍认为,这标志 OpenAI 彻底放弃视频生成通用能力的战略布局。

对皮布尔斯而言,曾经的科研理想乡,已变成一座死寂的孤岛。

04、为什么谷歌和 Meta 成了最终赢家?

很多人不解,皮布尔斯这些顶级科学家,为何宁愿投奔谷歌、Meta,也不留在 OpenAI 坚守?

答案藏在 AI 视频商业闭环的残酷真相里。

视频 AI 的核心瓶颈,从来不是算力,而是高质量、可商用、合规标注的底层数据资源。

OpenAI 在训练 Sora 的过程中,长期受困于数据来源的争议,与谷歌的关系也因此变得十分紧张。而当皮布尔斯的前同事加入谷歌后,却可以合法、顺畅地调用 YouTube 庞大的正版视频库,这就像是从无水的荒漠,直接进入了取之不尽的水源地。

继续留在 OpenAI,如同在荒漠中艰难挖井,每前进一步都要面对巨额的法律风险与罚款;而转向谷歌、Meta 这样的平台,则能直接站在成熟的数据生态之上,拥有完整、安全的商业闭环。

从商业逻辑看,皮布尔斯的出走,是对 OpenAI “单一模型订阅” 模式的彻底否定。算力成本飙升,普通会员费根本养不起 Sora 这头 “算力吞金兽”。只有谷歌这样拥有海量广告收入、自研 TPU 芯片的巨头,或是 Meta 这样坐拥百亿级社交分发渠道的平台,才能让视频生成技术真正转化为生产力。

在 OpenAI,皮布尔斯是需要为财报负责的 “成本负担”;在谷歌、Meta,他却是激活平台生态的 “技术英雄”。

这种地位落差,也让皮尔斯彻底看清:Sora 的未来,从来不在 OpenAI 千亿美金的 IPO 支票里。

05、风水轮转:中国AI视频军团强势突围

当硅谷正深陷人才内斗、算力配给和版权诉讼的泥潭时,大洋彼岸的中国视频生成行业,凭借完全不同的发展路径实现了强势突围,与国外形成鲜明对比。

皮布尔斯的离职,本质上是美国 AI 过度追求实验室理想、脱离商业现实的必然受挫,而中国军团早已走出了 “技术 + 应用 + 场景” 深度融合的务实道路,在全球赛道中展现出不可替代的优势。

不同于 Sora 在 OpenAI 内部因盈利问题被不断压缩预算,中国的视频生成产品从诞生之初就扎根于真实的商业土壤,深度依托国内庞大的短视频生态与电商带货场景,拥有天然的商业化落地优势。

全球最活跃的用户群体和最丰富的消费场景,为中国 AI 视频提供了绝佳的实战演练场,当 Sora 还在实验室中缓慢推进测试时,中国的 AI 视频工具已经切实帮助数万中小商家降低拍摄成本、提升创作效率,依靠实打实的商业价值,在全球市场实现了快速增长,增速持续领跑行业。

在算力利用上,中美厂商也呈现出截然不同的思路。

不同于美国大厂,中国工程师专注于算力效率的极致压榨,在有限的硬件条件下,通过底层工程优化持续降低视频生成的推理成本。

这种务实的技术迭代方向,让中国 AI 视频产品能够以更低的价格、更快的速度触达普通创作者,皮布尔斯在硅谷执着于追求物理世界的极致精度,而中国军团则更聚焦于技术的全民渗透率,让 AI 视频真正走进大众、服务大众。

在版权与合规这一全球难题面前,中国厂商也展现出更高的灵活性与适配智慧。

当好莱坞与 OpenAI 陷入版权诉讼僵局、寸步难行时,国内企业早已通过与影视 IP 方深度共建、场景定制化开发等方式,平稳平衡了商业合规与技术进步的关系。

这种对市场节奏的精准把控、对规则边界的灵活适应,恰恰是皮布尔斯在 OpenAI 僵化的 IPO 体制内,始终求而不得的研发自由,也让中国 AI 视频行业在全球竞争中占据了先机。

06、写在最后

比尔・皮布尔斯带走了 Sora 的灵魂,但这缕理想主义的火种,或许会在更合适的土壤重新燎原。

在资本狂飙的 AI 时代,没有永远的圣殿,只有为梦想不断迁徙的人。

我们不必嘲笑科学家的黯然离场,每一次逃离,都是对科研自由的执着追寻。当一个平台再也承载不了科学的厚度,离开就是对理想最好的保护。

无论如何,雷峰网认为未来的视频生成世界,不再属于高高在上、被资本绑架的 OpenAI,而属于真正读懂用户、扎根商业、在泥泞中坚定前行的实干者们。


]]> 人工智能 https://www.leiphone.com/category/ai/55omS4DRgRAktha9.html#comments Thu, 30 Apr 2026 16:26:00 +0800 库克终于放下重担,Siri一句「我听不懂」,苹果的AI时代就过去了 https://www.leiphone.com/category/ai/1eWcsFy0rw6OMIEe.html “一位新人将接任我心中这份世上最好的工作。”

2026 年 4 月 21 日,北京凌晨。

苹果官宣:蒂姆・库克将于 9 月 1 日卸任 CEO,转任执行董事长,硬件工程高级副总裁约翰・特努斯接棒。

消息一出,苹果盘后股价一度下跌超过 1.5%。

01 乔布斯的遗嘱,“紧箍咒”与“免死牌”

15 年前,帕洛阿尔托的阳光透过落地窗,洒在乔布斯消瘦的脸上。他把库克请到家里,平静地说:"我将向董事会推荐你接任 CEO。永远不要问 ' 乔布斯会怎么做 ',你只需去做正确的事。"

这句嘱托,成了库克 15 年 CEO 生涯的 "紧箍咒",也成了他的 "免死金牌"。


他确实没问过,也做了很多 正确的事—— 把 iPhone 从奢侈品变成全球标配,让 Apple Watch 成为智能穿戴的代名词,用 App Store 构建起 3000 亿美元的数字生态,甚至把服务业务做成了堪比 Facebook 的营收巨兽。

但在另一些人眼里,库克的 "正确",恰恰是乔布斯最警惕的 "平庸"。

当谷歌、微软、OpenAI 在 AI 赛道上你追我赶时,苹果却像个迷路的孩子,在 Siri 的泥沼里越陷越深,在大模型的浪潮中犹豫不决,在生成式 AI 的风口上错失良机。

02 市值涨了 10 倍,灵感丢了一地

让我们先把时间拨回到 2011 年。

那年 10 月 5 日,乔布斯走了。在他主导的乔布斯时代,iPod 改变了音乐产业,iPhone 重新定义了手机,iPad 开创了平板电脑时代,MacBook Air 给笔记本界做了一次工业设计的降维打击。

在无数人心中,乔布斯是一个把科技变成诗歌的人。他用 iPhone 4 的玻璃机身震撼了世界,用 iPad Air 那句 "轻到只剩空气" 的宣言波动了无数极客的心弦。在他手中,产品从不是冷冰冰的电路板,而是一种美学,一种信仰。

但同时,乔布斯也留下了一堆 "烂摊子":供应链混乱、产能不足、库存管理堪忧。Mac 的生产周期一度长达数月,iPhone 发布之后全球缺货的窘境屡见不鲜。

在此时,库克出现了。1960 年生于阿拉巴马州一个乡村家庭的他,在加入苹果之前,已经在 IBM 和康柏历练了十几年的供应链管理经验。

他加入苹果后做了一件别人看来并不 "性感" 的事情:砍掉所有外包生产,建立与富士康的深度绑定,把库存从几个月压缩到几天。

乔布斯曾在传记中评价库克:"我认识的执行者中,没人比他更懂 ' 从 A 点到 B 点 ' 这件事。"

2005 年,乔布斯把他提拔为首席运营官。2011 年,当乔布斯在病榻上把 CEO 的位置交给库克时,整个硅谷都倒吸一口凉气 —— 一个做供应链的,能扛得住苹果这种创意驱动的公司吗?

后来的故事我们都知道了。

库克不仅扛住了,还让苹果的市值从 3000 多亿美元飙到了 4 万亿美元。全球活跃设备突破 25 亿台,零售店超过 500 家,覆盖 200 多个国家。Apple Watch 成了全球最畅销的智能手表,AirPods 直接创造了一个百亿美元级别的可穿戴设备市场。

但从乔布斯到库克,苹果完成了从 "产品梦想家" 到 "商业管理大师" 的转型。有人把这种转变比喻为:从创作《红楼梦》变成了运营一家年入 4000 亿美元的连锁书店。书架上摆着全行业最好的书,但再也没人写过新的名著了。

而这个比喻,在接下来的十几年中被反复印证 —— 尤其是在 AI 和造车这两条关键的赛道上。

03 求稳局“大溃败”:Siri 依旧“听不懂”,十年“泰坦”成幻影

先说 Siri。

2011 年,iPhone 4s 发布会上,Siri 作为全球首个智能语音助手亮相,台下响起的惊叹声至今仍在许多人耳边回响 ——“天哪,手机竟然能和我聊天了”。

那时的 Siri,是乔布斯留给世界的最后礼物之一,承载着他对人机交互未来的无限想象。

但十五年过去,2026 年的今天,Siri 依旧停留在 “设闹钟、查天气、定提醒” 的初级阶段。

当你让它写一段周报、维持连贯对话、生成内容或做深度研究时,它只会机械地回一句 “抱歉,我没有理解您的问题”。而此时,ChatGPT、Gemini 早已能写代码、做设计、解数学题,甚至能作为个人助手帮你规划人生。

这个差距不是一天造成的。

早在 2022 年,苹果内部团队就已构建了好几个大语言模型,却因公司高层质疑 “实用性不足” 被直接搁置 —— 库克领导下的决策层犹豫不决、战略摇摆不定,让苹果完美错过了 2022 年底由 ChatGPT 引爆的 AI 热潮

苹果前高管 Simeon Bochev 曾直言不讳:苹果目前的战略已退化为 “嵌入足够多的 AI 功能以留住用户,同时大力借助第三方”—— 说白了,就是不想在 AI 上花太多钱,只想用最低成本维持表面光鲜。

“自研小模型 + 外包大模型”,成了苹果 “最不 AI” 的招牌策略。

2026 年 1 月 12 日,苹果与谷歌正式官宣多年期合作,新版 Siri 将引入 Gemini 作为底层技术支持。这一消息引发舆论哗然:一家以 “自研创新” 为傲的科技巨头,竟然要用竞争对手的 AI 模型来支撑自己的核心交互入口,这和安卓手机预装 Google Assistant 有什么本质区别?

更讽刺的是,据传苹果每年要向谷歌支付约 10 亿美元的技术使用费,这笔钱足够支撑一个中型 AI 公司的全年研发投入。

与此同时,竞争对手们正在 AI 赛道上疯狂烧钱。亚马逊、Alphabet、Meta、微软四家科技巨头 2026 年在 AI 基础设施上的预计投入接近 7000 亿美元 —— 亚马逊的现金流可能因此转负,Meta 的自由现金流或锐减近 90%。

他们在为未来十年的 AI 革命夯实基础,而苹果却在做着截然不同的生意。

苹果几乎没在大模型研发上投入多少资金,却靠着 App Store 从生成式 AI 应用中抽成了近 9 亿美元佣金,2026 年预计突破 10 亿美元。华尔街分析师们美其名曰 “苹果的隐形 AI 战略”——“竞争对手在烧钱训练模型,苹果在两头收费”。

听起来很聪明,不是吗?但稍微想深一层就会发现问题:如果未来十年 AI 真的重构了一切底层交互,连操作系统都不再是核心入口,那苹果这个 “抽水站” 还能往哪抽?当用户的所有需求都能通过 AI 直接满足时,谁还会在意你用的是 iOS 还是安卓?

更让人揪心的是苹果 AI 团队的人才流失潮。

2025 年至今,苹果至少有 6 位 AI 相关高管离职,其中 5 位被 Meta 直接挖走 —— 包括苹果 AI 基础模型团队负责人庞若鸣,Meta 为他开出了 4 年最高 2 亿美元的天价薪酬包。2025 年 12 月,AI 业务负责人约翰・詹南德雷亚(John Giannandrea)确认退休,其职责被全面拆分,标志着苹果 AI 业务在公司内部的权限已大幅降级。

Simeon Bochev 曾警告说,随着 AI 竞争重心从模型层向代理(Agent)框架迁移,不深度参与代理层构建的苹果,可能错失下一轮平台级红利。

换句话说,苹果在 AI 这场大战里,打了个前哨没准备好、中期失了智、后期只能跪求外援的谜之操作。这背后,是库克对风险的极度厌恶和对短期利润的过度追求,最终让苹果在 AI 时代彻底掉队。

再说造车。如果说 AI 还能勉强解释为 “战略保守”,那造车这件事简直可以用 “荒唐” 来形容。

2014 年,苹果启动代号 “泰坦计划” 的电动车研发项目,目标是打造一款具有完全自动驾驶功能的豪华汽车。十年间,苹果砸了上百亿美金,投入近 2000 名工程师,项目历经多次管理层和战略调整 —— 从最初的整车制造到后来的自动驾驶系统,再到后来又回归整车,反复无常的决策让项目始终原地打转。

结果呢?2024 年 2 月 27 日,苹果突然内部宣布取消造车计划。

消息公布时,近 2000 名员工措手不及,部分员工被转调到人工智能部门 —— 而这个部门,恰恰是苹果自己都没做好的领域。

加州机动车辆管理局(DMV)随后确认,苹果已主动取消自动驾驶汽车测试许可证,该许可证原有效期至 2025 年 4 月 30 日。从 2017 年拿到许可证到 2024 年取消,苹果的车从未真正上过路,连车门都没向公众打开过。

这消息一出,雷军连发微博:“非常震惊!”—— 一个在造车领域摸爬滚打多年的企业家,或许最能理解苹果十年投入却颗粒无收的荒唐。马斯克在社交媒体上发了一个敬礼和一个抽烟的表情,言外之意再明显不过:“你看,我早说过这事儿不靠谱。” 

十年百亿美元,最终只换来一场空。如果把苹果的 “泰坦计划” 拍成电视剧,观众怕是会中途换台 —— 因为看了十年,剧情还在第一集原地打转,连个像样的高潮都没有。

这背后,依旧是库克的保守与短视:他既想抓住造车这个未来赛道,又不敢承担巨额投入可能带来的风险,最终在反复摇摆中错失了所有机会。

04 特努斯:乔布斯的 "追随者",还是库克的 "影子"?

现在,接力棒交到了约翰・特努斯手里。

特斯努是谁?他是苹果的 "老兵",在公司待了 25 年,从基层工程师一步步做到硬件工程高级副总裁。也是乔布斯的 "门生",更是库克的 "爱将"—— 换句话说,他是在乔布斯的 "羽翼" 和库克的 "阴影" 下共同成长起来的。

这位老兵的履历相当硬核:宾夕法尼亚大学机械工程专业毕业,加入苹果后一路做到硬件工程高级副总裁,负责监督所有核心产品的硬件工程 ——iPhone、iPad、Mac、Apple Watch、AirPods 以及 Vision Pro,全线通吃。

要说他做过最出名的一件事,就是用苹果自研 M 系列芯片取代了英特尔芯片,直接让 Mac 销量猛增。2020年,他在苹果活动上,负责了 M1 Mac 产品发布的主讲工作,被库克称为 "苹果史上最勇敢、最成功的技术转型之一"。

库克在内部备忘录里这样评价他:"约翰对苹果的热情和热爱始终贯穿其中。他是一位极具远见的领导者,一位品格高尚的人,也是我们所有人都引以为豪的追随者。"

更打动人的是特努斯的回应:"我由衷感恩获得这份传承苹果使命的重任。我的职业生涯几乎都在苹果度过,有幸曾在史蒂夫・乔布斯麾下工作,也一直以蒂姆・库克为人生导师。能够接过这份重任,我深感荣幸,也郑重承诺,将恪守苹果半个世纪以来沉淀的核心价值观与发展愿景,引领公司稳步前行。"

乔布斯是他的起点,库克是他的领路人,而他,是这两个时代之间的桥梁。

特努斯接任的时间点也很有意思:今年 9 月 1 日,正好在 iPhone 18 发布前后,新机预计搭载经过全面升级的 AI 版 Siri。

看起来,苹果是希望借 "换帅"+"新品" 来完成一次双线突围。但问题是:Siri 的 AI 升级版本已经鸽了整整两年 —— 从 2024 年 WWDC 首次承诺,到 2025 年初推迟,再到 2026 年春季仍然缺席,如今又可能推到 iOS 27 在 9 月才上线。

特努斯能不能真的把这个 "饼" 端上桌?谁也不敢打包票。但至少有一点可以肯定:他是一个真正的工程师,而不仅仅是库克那样一位运营大师。

《财富》杂志这样评价他,苹果过去二十年硬件的成功都离不开他的贡献,而硬件才是消费者最终接受 AI 的关键所在。如果 AI 注定要从云端落到终端,那一个深谙硬件和产品整合的人,或许是苹果最需要的 CEO。

05 尾声

乔布斯临终前,库克曾陪在他身边。2011 年 8 月的一个晚上,乔布斯坐在自家花园的秋千椅上,告诉库克:"你做 CEO 的决定是我的主意。我不想听到别人说那是董事会的决定。"

在不久后的追思会上,库克难掩哽咽。

十五年后,库克把 CEO 的接力棒递给了特努斯。特努斯在新闻稿中说:"能够参与打造一系列划时代的产品与使用体验,深刻改变人类与世界、人与人之间的交互方式,我倍感荣幸。"

他眼中的光芒,让人恍惚间又想起乔布斯站在旧金山莫斯康会展中心的舞台上,从信封里抽出 MacBook Air 的那一刻 —— 那个年代,苹果的产品就是人类的期待。

如今,这份期待落在了特努斯身上。他能跑赢 AI 时代吗?或许只有时间能给答案。

但不管怎样,库克已经尽力了。从阿拉巴马州的乡村少年,到苹果的掌门人,他用十五年把一家濒临质疑的公司变成了全世界最有价值的商业机器 —— 哪怕这个过程中,AI 和造车跑丢了,但在商业史上,库克依旧是一个传奇。

正如他在公开信的结尾所写:"每一天,我们起床后都在思考,能做些什么让你们的生活变得更好一点。而每一天,你们都让我的生活成为了我所能期望的最好模样。谢谢你们。"

此刻,雷峰网认为,我们要由衷地说一句,谢谢库克。但更该说一句:乔布斯,我们想你了。


]]> 人工智能 https://www.leiphone.com/category/ai/1eWcsFy0rw6OMIEe.html#comments Thu, 30 Apr 2026 16:15:00 +0800 对话清华商宇丨从生成视频到支撑行动,世界模型需要新的评测标准 https://www.leiphone.com/category/ai/x8FfM4rz32hAubG6.html 在今天的 AI 叙事里,“世界模型”几乎成了通往具身智能的必经之路。

它被期待理解物理规律、预测环境变化,并为机器人决策提供依据。但一个尖锐的问题是:当一个模型能生成一段足够逼真的未来视频时,我们究竟该相信它真的理解了世界,还是只是更擅长复刻世界的表象?

咬了一口的苹果会自动愈合,坠落的杯子在空中漂移——在具身智能的视角下,这种AI视频“感知与功能的断裂”无疑是致命的。

一个模型即便能生成 4K 分辨率的视觉幻象,如果它无法理解重力约束、因果关联与物体永久性,它就永远无法支撑机器人在复杂物理世界中的抓取、规划与交互。视觉真实不等于功能可用,这道长期被忽视的“裂缝”,正是当前视觉智能通往 AGI 的最大障碍。

CVPR 2026 正在释放一个明确的信号:计算机视觉(CV)与计算机图形学(CG)的传统边界正在模糊。视觉研究的主线正从单纯的“像素预测”转向对“世界动力学”的重建,世界模型不再仅仅满足于“看”,而是要构建一个具备物理一致性的内部沙盒。这意味着,下一代视觉智能必须跨越 2D 藩篱,去硬碰硬地解决因果律、重力与 3D 空间的拓扑逻辑。

这种转向,不仅标志着视觉研究正在从“图像处理”回归到“世界建模”,更核心的演进在于,世界模型正从“被动观测”转向“动作驱动”。

作为 CVPR 2026 备受瞩目的竞赛项目,清华团队提出的 WorldArena 恰逢其时。在论文《WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models》中,它审问的是模型作为“具身大脑”的真实含金量:能否作为可靠的数据引擎?能否充当精准的策略评估环境?能否在长程任务中保持逻辑的不漂移?

它将会对过去世界模型评测沿用视频生成的逻辑——画面是否清晰、运动是否自然、结果是否逼真——进行重新审视。

但在具身场景中,“看起来像”远远不等于“用得起来”。一个模型即便能生成高质量视频,也可能无法支持机器人完成抓取、规划、交互和长程执行。换句话说,视觉真实与功能可用之间,存在一道尚未被充分正视的裂缝。

而 WorldArena,正是试图把世界模型从“生成世界”的审美竞赛,推向“使用世界”的能力审判。

除此之外,作为 CVPR 2026 关键 Workshop 竞赛的评测基础,WorldArena 的目标不仅是提供一个排行榜,更是为具身世界模型建立一套面向真实任务的能力坐标:它不只问模型能否预测接下来会发生什么,也进一步追问,这些预测能否转化为动作?能否支撑 agent 决策?能否在长程任务中保持稳定?能否真正成为具身智能通向物理世界的一部分?

围绕这项工作,AI 科技评论与论文主要作者商宇展开了一场深度对话。从世界模型评测为何不能止步于视频质量,到当前模型为何会在高视觉分数与低功能表现之间断裂;从 Benchmark 如何推动训练范式转向视频 - 动作联合建模,到 WorldArena 自身如何避免成为新的路径依赖,这场对话触及的并不只是一个评测平台,而是世界模型研究正在面临的一次范式转换。

论文地址:https://arxiv.org/pdf/2602.08971

项目地址:https://world-arena.ai/

给世界模型设下一场「行动考试」

AI 科技评论:能否先以团队成员、主要作者的身份,介绍一下 WorldArena 这项工作?

商宇:WorldArena 是我们在今年年初发布的、专门面向具身世界模型的评测平台。它的出发点是:世界模型这个概念近期非常受关注,但大家对它的定义还没有完全收敛;同时,过去很多评测仍然把世界模型当作视频生成工具,主要关注生成视频的质量,也就是视频是否好看、是否逼真。

但在具身场景中,仅生成好看的视频远远不够。具身世界模型不是为了“拍电影”,它的核心任务是建模外部环境的动态转移规律,并进一步辅助下游智能体做决策。因此,世界模型最终必须服务于智能体与环境的交互。

基于这个判断,我们认为现有评估存在方向性不足:评估具身世界模型时,不能只看生成结果是否像真实视频,更要看它是否能支持下游功能性任务,是否真正有助于智能体与环境交互。

因此,我们建立了一套统一评测框架,主要从两个维度评估模型能力。第一个维度是视觉质量。由于目前世界模型的主要形态仍然是视频生成,开环的视频生成质量依然需要评估。

第二个维度,也是我们更核心的贡献,是面向功能性任务的评估。围绕具身场景,我们进一步从世界模型可能承担的角色出发,设计了三类应用评估。

第一类是把世界模型作为数据生成引擎。它可以合成大量数据,用于缓解具身真实数据稀缺的问题,并辅助下游策略模型训练。

第二类是把世界模型作为在线交互环境,用来评估策略模型。前提是世界模型能够捕捉环境动态,从而充当真实环境的代理。例如,过去评估一个 VLA 策略,通常需要把它部署到仿真器或真实环境中运行;如果世界模型这条路线可行,就可以让策略与世界模型交互,再根据交互结果判断策略质量。

第三类是把世界模型作为具身大脑,或者说作为 agent / action planner。既然世界模型能够生成环境转移后的状态,就可以从状态预测结果中提取动作,并把这些动作直接用于下游执行。

总体来说,WorldArena 同时关注两个问题:世界模型是否会生成这个世界,以及它能否利用生成结果支持智能体与世界交互。雷峰网

AI 科技评论:在这个框架中,一个合格的世界模型至少需要满足哪些能力?

商宇:我们的评估分为感知和功能两个维度,两者有关联,但并不严格绑定。如果一个模型想在榜单上取得较好表现,首先视频生成质量必须过关。也就是说,它在感知层面要尽量真实。我们评测了开源和闭源模型,发现闭源模型在第一轮测试中的整体分数更高,这说明较好的视觉质量确实有助于获得更好结果。

感知层面的基本要求是:模型生成的未来状态和画面要符合世界运行规律。至少在人眼看来,它不能违背基础物理规律,例如出现明显穿模、异常形变等问题。

更进一步,模型还需要具备任务执行能力。一个合格的世界模型不仅要推断出合理的未来状态,还要让这些状态能够转化为有效动作序列,从而帮助智能体完成交互。

概括来说,最低要求有两点:第一,感知层面真实;第二,对智能体决策产生增益。

AI 科技评论:很多模型可以预测接下来会发生什么,但不一定理解为什么会发生。WorldArena 更接近评估哪一种能力?

商宇:目前 WorldArena 更侧重评估“接下来会发生什么”,也就是预测结果是否合理。我们的评估仍然基于模型行为:先让模型输出视频或动作,再判断输出是否符合认知、是否接近真实视频或真实结果。因此,它本质上评的是模型预测是否正确。

至于模型是否真正理解“为什么会发生”,这个问题更难。它可能涉及模型内部机理研究,也可能需要因果建模、反事实推断等方法。

例如,在机器人抓取矿泉水瓶的任务中,如果我们想判断模型只是拟合了某一种抓取轨迹,还是理解了不同动作的含义,就需要在同一场景中给出不同动作,观察模型是否产生有差异的响应。类似设计才更接近因果性或反事实推断。

因此,就当前版本而言,WorldArena 主要评估预测是否正确,而不是直接证明模型是否理解因果关系。

AI 科技评论:论文中提到用 16 个 perception 指标刻画 world understanding。具体是怎样设置的?

商宇:我们把整体评估分为 perception 和 functionality 两大类。Perception 部分基于世界模型合成的视频,对视频进行多维诊断。我们参考了许多已有研究,最终总结出六个大维度,并进一步拆分为 16 个感知指标。雷峰网

第一个维度是 visual quality,即视觉质量。这是最基础的层面,关注视频分辨率是否足够高、画面是否清晰、整体布局是否与真实场景一致。第二类是面向具身场景更关键的能力,包括动作质量、物理遵循性、3D 准确性、可控性,以及内容一致性等。

动作质量会关注动作连贯性,例如动作是否出现突变。物理遵循性用于判断生成结果是否符合基础物理规律。由于物理规律较抽象,我们会借助外部 VLM 进行评估,让它充当类似人类评判者的角色。

3D 准确性关注视频空间结构是否正确。只看 2D 画面时,现在的模型往往能拟合得很好;但物体之间的空间关系可能并不自然,投射到 3D 空间后就会暴露问题。

可控性评估模型是否能 follow 外部指令。指令可以是文本,也可以是机器人动作。我们希望判断模型究竟只是 overfit 某段视频,还是确实理解并响应外部条件。

内容一致性则关注视频前后是否保持一致,这是一个基础但重要的能力。整体来看,六个大维度共同构成对感知能力的评估,并进一步细化为 16 个 perception 指标。

AI 科技评论:一些高视觉质量模型在功能评估中表现并不好。你们认为这种断裂的原因是什么?

商宇:这个结果最初也让我们有些意外。后续分析后,我们认为主要有两类原因。第一类原因是训练目标没有对齐。许多视频生成模型在第一阶段微调时,本质上仍然是在拟合视频像素。这个训练过程并没有真正涉及视频与动作之间的关系,也没有建模因果关系。

因此,这些模型训练出来后主要服务于“像素是否拟合得好”“图像是否逼真”。换句话说,模型优化目标仍然集中在 perception 上,而不是功能性交互。

第二类原因是功能任务对模型能力要求更高。视频生成通常是在 2D 空间中完成,但动作预测和真实执行本质上发生在 3D 空间中。例如,物体关系的错位在 2D 图像中可能不明显,但一旦投射到 3D 空间,就会影响动作执行。这意味着模型可能过度拟合了二维表征,却没有充分建模三维空间和动作之间的关系。

此外,任务设置本身也带来挑战。Functionality 部分要求世界模型真正输出动作,而当前视频生成模型通常只能生成较短片段,一次可能只有几十帧。但现实动作执行往往是长程任务,很少能通过一次视频预测完整完成。

因此,模型必须经历长程、迭代式 rollout。我们观察到,许多模型单次生成效果尚可,但迭代后会产生误差累积:第一次生成可能准确,后续动作会逐渐漂移,稳定性下降。

所以,对具身任务而言,模型不仅需要单次生成质量高,还需要长程稳定性。训练目标错配和长时序稳定性不足,是造成这种断裂的主要原因。

AI 科技评论:也就是说,当前视频生成模型的问题之一是单次预测可以,但长程执行会乱?

商宇:是的,长程稳定性是一个重要问题。除此之外,当前模型往往仍在拟合 2D 图像分布,与动作之间的建模关联不够。虽然我们在 WorldArena 中设置了二阶段适配,用监督学习把世界模型学到的视频表征和动作联系起来,但这个过程并不是原生训练,而是后训练,并且相对轻量。

这种适配可以帮助模型学习视频到动作的关系,但不能从根本上解决问题。更本质的方向,是让世界模型进行视觉内容与动作内容的联合建模。现在已有一些工作在原生地对齐视频与动作关系,我认为这会更有帮助。

另一方面,功能性任务要求模型具备长程稳定性,才能独立、完整地执行任务。只有当模型在长程执行中保持稳定,它在功能榜单上的表现才会显著提升。

AI 科技评论:如果一个模型在 WorldArena 上得分不高,问题更可能是模型能力不够,还是训练目标没有对齐?

商宇:两种情况都会存在。有些模型得分不理想,是因为模型本身能力不足,生成视频质量不高。对于这类情况,可以认为它在基础生成能力上还没有达标。

另一些模型生成画面看起来不错,从人的角度看没有明显问题,但放到任务执行评测中表现不佳。对于这类情况,我更倾向于认为是训练目标没有完全对齐下游交互能力。

这类模型往往开环能力强,也就是生成视频本身没问题;但闭环能力弱,不能稳定支持动作预测和交互执行。原因可能是视频到动作的映射没有学好,也可能是模型只擅长局部预测,一旦进入长程预测就会出问题。

因此,WorldArena 上的低分既可能来自基础模型能力不足,也可能来自训练目标与功能性交互能力之间的错配。

AI 科技评论:如果 WorldArena 这类评估框架成为主流,会不会反过来推动新的训练方式?

商宇:我认为会,但这是一个循序渐进的过程。作为评测工作,我们现阶段主要希望提供实验现象、观察和 insight,让大家意识到:只做视频拟合,模型可能在视觉质量榜单上很高,但在功能性榜单上很低。

我们并不是完全否定当前的视频学习范式。许多视频基座模型通过这种方式持续 scaling,基础能力确实在提升,这对下游任务是有帮助的。

但如果目标是真正的世界模型,训练范式就不能只包含视频生成和重建,还需要把动作模态纳入进来。无论是根据视频预测动作,还是做 action-controlled video generation,都是必要的;关键是让视频和动作两种模态天然对齐。

现在已经有一类模型被称为 World Action Model,也就是 WAM。它们试图训练一个统一模型,同时具备视频预测和动作预测能力,并在两种模态之间设计明确的对齐机制,例如 joint attention。

所以,从研究趋势看,整个方向已经在向视频 - 动作联合建模转变。这也符合我们通过 WorldArena 得到的判断。

WorldArena 的边界与自我校准

AI 科技评论:如果模型在某些任务上失败,说明它真的不理解事件,还是只是没有见过足够多的类似数据?

商宇:我们不会把榜单表现不理想直接等同于“模型没有理解这个事件”。就当前版本的 WorldArena 而言,我们的重点还不是泛化能力评估,也没有专门设置 OOD 场景。在评测设置下,模型基本见过类似数据;如果要测某个任务,我们会给它相应数据进行训练。因此,我们不倾向于把失败主要归因于“没有见过足够多的数据”。

在这个前提下,模型失败通常可以拆成两个阶段分析。

第一阶段是开环视频生成质量。如果模型连视频预测本身都做不好,说明它的视频学习质量就不高。

第二阶段是视频到动作的映射,以及视频与动作的联合建模。如果视频生成质量尚可,但闭环任务或长程任务失败,问题更可能来自动作预测不稳定。

真实执行中,错误往往难以校正。例如机器人抓瓶子时,如果中途掉落,当前模型通常缺少错误恢复能力,后续会持续出错。

因此,在当前设置中,许多失败更可能反映模型缺少足够稳定的动作预测和长程执行能力,而不是简单说明它没有见过类似数据。

AI 科技评论:WorldArena 评估的是世界模型,但 agent 设计也会影响结果。你们如何区分世界模型不够好和 agent 没有正确利用世界模型?

商宇:这是一个很有技术意义的问题,我们在实验中也做了相应排查。我们的动作预测流程是在世界模型后面额外加入一个逆动力学模型,即 IDM。IDM 的作用是从世界模型预测出的状态特征中映射出动作。因此,一个潜在担忧是:结果不好是否因为 IDM 或整个 pipeline 存在性能上限,而不是世界模型本身不够好。

为了排除这个混淆因素,我们做了一个上限实验:不使用世界模型预测的视频,而是给 IDM 输入真实视频。这个设定相当于假设世界模型预测完全等同于真实世界,再观察动作能否被正确预测。

实验结果显示,在输入真实视频并经过二阶段动作预测训练后,IDM 能完成大部分任务,成功率基本在 80% 以上。

而当前世界模型在同一体系下的结果与这个上限还有明显差距。由此我们判断,现有 pipeline 虽然不一定是最完美设计,但还没有达到性能天花板;它能够比较客观地暴露问题。

综合来看,当前主要瓶颈仍然在 world model 本身,而不是 agent 或 IDM 没有正确利用它。

AI 科技评论:WorldArena 是否类似一个黑盒评估工具?

商宇:它不是完全的黑盒。许多 Benchmark 本质上都是行为层面的评估,WorldArena 也不例外。但它在设计上具有一定诊断性。

首先,我们同时做开环和闭环评测,可以帮助判断模型问题来自生成能力,还是行动能力。其次,在生成能力内部,我们又拆分出十几个子维度指标。这能帮助研究者更细致地审视模型能力。例如,通过雷达图可以看到不同模型的优势和劣势:有些模型可能 3D 重建质量高,有些模型可能动作连贯性更好。

因此,WorldArena 不只是输出一个最终分数,它还提供中间结果和多维诊断证据。相比只看最终闭环执行成功率的评测,它并不完全是端到端黑盒。

但如果更严格地问,它能否解释模型内部机制、能否证明模型真正理解世界,目前版本还做不到。后续我们希望引入反事实推断等方法,进一步提升可解释性。

AI 科技评论:如果模型在 WorldArena 上表现好,是否意味着它已经接近真实机器人部署?

商宇:如果模型在 WorldArena 上表现好,尤其是在 functionality 维度表现好,我认为它确实更有潜力,但这并不等同于它一定能在真实物理世界中运行。

这是当前评测的局限之一,也会是未来工作。我们仍然面临 sim-to-real gap。当前评测主要在仿真环境中完成,这样做是为了评测便利,也为了排除真实环境中的偶然因素。

真实环境远比仿真环境复杂。它会受到传感器噪声、执行误差、硬件差异等因素影响,不同模型对硬件的适配程度也可能不同。未来,我们希望提供一套标准化的真机评测流程,进一步分析仿真表现与真实部署能力之间的相关性。

就当前结果看,现有模型距离真实物理世界部署仍有较大差距。模型在仿真器中需要达到足够高的性能,才可能有希望迁移到真实环境;目前它们与一些 VLA 模型相比,差距仍然不小。

AI 科技评论:Benchmark 往往会反过来塑造研究方向。如何避免 WorldArena 成为新的路径依赖?

商宇:这是大多数 Benchmark 都会面对的问题。从设计 Benchmark 的角度看,我们的出发点是:当前模型开发方向与我们希望模型具备的能力之间存在差距,因此需要补充新的评测维度,引导研究进一步接近真实需求。

但 Benchmark 的价值不应是让所有人把刷榜作为模型研发的第一目标。它更应该作为能力诊断工具,帮助缩小研究目标与真实需求之间的距离。

对于 WorldArena 来说,它的价值在于提醒大家:世界模型不能只做到视觉真实,还要在功能层面可用。它提供的是观察和 insight,而不是唯一评价标准。

随着模型能力逐渐接近,Benchmark 本身也必须持续迭代。模型最终要服务真实需求。对于具身场景,最终目标是让世界模型在真实物理交互中跑通,并把性能做上去。

因此,我们也需要不断把更真实的需求纳入评测,例如未来加入真实环境下的评估和诊断,让 Benchmark 与现实需求更对齐。

对研究者来说,WorldArena 可以作为基础工具,但更重要的是用它判断模型距离真实世界还有多大差距,而不是把它当作唯一审判标准。

AI 科技评论:如果一个模型在真实世界表现很好,但在 WorldArena 上得分不高,这更可能是谁的问题?

商宇:如果真的出现这种模型——目前我们还没有收到类似反馈——我不会先入为主地认为是模型的问题,而会把它视为一个有价值的信号。

一种可能是,这个模型采用了 WorldArena 现有设计没有覆盖到的技术路径。它可能通过特殊设计在真实世界或动作预测上表现很好,但我们的 Benchmark 没有体现出来。这说明评测框架与真实世界之间仍有未对齐之处。

另一种可能是,当前评价体系需要进一步完善。我们需要对这类模型做更详细诊断:看它在 WorldArena 中具体哪些情况表现不好,再与它在真实环境中的表现交叉分析,判断问题是共性的,还是因为模型 overfit 到了某个特定场景。

因此,可能是评估维度不够,也可能是模型并非通用能力强,而是在某些特定场景表现好。两种情况都需要进一步分析。

AI 科技评论:如果未来世界模型取得新的突破,WorldArena 是否也需要重构?

商宇:这是肯定的。模型和 Benchmark 应该是螺旋上升的关系。通常是先出现一批模型,然后我们再思考如何系统性评判这些模型。当前 Benchmark 的设计针对的是当前模型能力。随着模型能力增强,Benchmark 必须跟着进化,否则会干扰研究判断。

Benchmark 本应起到牵引作用。如果模型已经往前发展,而 Benchmark 仍停留在旧能力上,它就会从方向盘变成后视镜。

从世界模型领域看,目前行业仍处于较早期阶段。WorldArena 的一步,是从视觉导向走向功能导向。如果未来所有模型都能把当前榜单刷到接近饱和,无法再体现差异,我们就需要引入更高标准、更有挑战性的任务,并适配新的模型能力。

例如,现在已有模型不再局限于单视角视频生成,未来可能出现更多视角、更多模态。这些变化都需要后续 Benchmark 纳入。所以,WorldArena 不会是静态框架,而应该长期迭代,并吸收社区共同发现的新问题,持续推出更高质量的评测任务。

AI 科技评论:能否介绍一下这次 CVPR workshop 挑战赛的情况?

商宇:我们以 WorldArena Benchmark 为基础,在 CVPR 2026 组织了一个公开挑战赛。比赛内容与我们的评测基本一致。

挑战赛分为两个赛道,对应感知和功能两个维度。Track 1 面向视频生成质量,会综合 16 个感知质量指标,评估世界模型的视频生成能力。

Track 2 面向功能性评测。为了方便参赛团队实现,我们优先设置了数据引擎和策略评估两个任务。这两个任务能够覆盖现有大部分模型能力:文本可控视频模型适合数据引擎任务,动作可控模型适合策略评估任务。

整个比赛周期约两个月,从 3 月底开始。目前处于中期阶段,我们也准备公布前一个月的中期成绩。截至目前,比赛在社区中已有一定影响力。不到一个月内,提交次数接近 100 次,第一名成绩也在持续刷新,参与比较积极。

Track 2 目前参与人数相对少一些,因此机会可能更大,奖金也更多,但难度确实更高。参赛队伍覆盖学术界、工业界和初创公司。我们希望在 CVPR 会议现场与大家进一步交流,并把挑战赛中的观察和 insight 呈现给社区。

]]> 人工智能 https://www.leiphone.com/category/ai/x8FfM4rz32hAubG6.html#comments Thu, 30 Apr 2026 10:46:00 +0800 CVPR 2026 生成式 AI 观察梳理:视觉模型开始重写默认设定 https://www.leiphone.com/category/ai/z1AQwQ3RWjfvOGZe.html 过去几年,视觉生成与视觉理解领域的技术推进,整体上始终沿着一条相对明确的路径展开:当一套建模范式被验证有效之后,后续的大量工作往往都会围绕这套既有框架持续做模型扩容、训练增强、采样优化与局部模块修补,以此换取更高的性能上限。

无论是扩散生成、视频 world model,还是动作建模与视觉匹配,主流研究在很长时间里都更多表现为对既有系统的持续加固,而不是对底层假设本身的重新审视。

但从今年 CVPR 集中出现的一批代表性工作来看,这种相对稳定的技术推进逻辑正在发生值得警惕的变化。越来越多研究已经不再满足于在现有模型框架内部继续做增量式性能修补,而是开始系统性地把问题重新拉回到那些长期被工程实践视为“默认正确”的基础设定上。

扩散模型中的引导机制是否真的合理,视频生成是否必须建立在 diffusion 的反复去噪之上,生成模型所学习的预测对象是否从一开始就遵循了最自然的数据流形,以及人体动作生成与语义对应任务中长期被粗粒度评价掩盖的控制边界和泛化边界,是否都需要被重新定义。

这意味着,顶会论文所呈现出的竞争重点正在悄然发生迁移。相比于过去更多强调“在原有范式内把模型做得更强、把指标推得更高”,这一批工作更值得注意的地方在于,它们开始同步触碰那些决定模型行为方式的底层建模前提,并试图重新建立新的生成目标、控制机制、主干架构与表示逻辑。

换句话说,视觉 AI 的下一轮竞争,正在逐渐从性能增量竞争,转向对既有默认设定的回溯性重写。

视觉生成开始重写基础机制

这一趋势首先体现在由上海交通大学和 vivo BlueImage Lab 共同提出的《C²FG: Control Classifier-Free Guidance via Score Discrepancy Analysis》上。

Classifier-Free Guidance(CFG)作为条件扩散模型中最常用的生成引导机制,几乎已经成为默认组件:通过调节 conditional 分支和 unconditional 分支之间的 guidance strength 来增强模型对条件信息的服从程度,从而提升生成质量。

但长期以来,这一过程主要依赖固定 guidance weight 或少量经验化动态调整,真正的问题在于,扩散过程内部的噪声结构和 score 差异并不是静止的,而是随着时间步不断变化,固定的引导强度很难在整个采样阶段都保持最优。

论文正是从这一被忽视的内部动力学出发,分析不同 timestep 下 conditional score 与 unconditional score 的 discrepancy 变化规律,指出 guidance scale 本质上不应是一个静态超参数。

基于这种理论观察,作者提出 C²FG(Control Classifier-Free Guidance),利用指数衰减控制函数让 guidance strength 在采样前期和后期自动完成动态分配:前期更强地利用条件约束保证语义对齐,后期则逐步减弱引导以避免过强 guidance 带来的分布偏移和细节失真。

它真正打破的是 CFG 长期依赖经验调参的惯性,把一个原本“手工设定的 scale”重新建立成一个与扩散动力学同步变化的控制变量,而且由于整个方法 training-free、plug-in,无需重新训练模型即可直接嵌入现有采样流程,这也使它具备了非常强的工程可迁移性。

而当扩散模型内部的引导控制开始被重新理论化时,苹果团队提出的《STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows》则进一步把问题推向了更底层的生成架构本身。

当前高质量视频生成几乎清一色建立在 diffusion 框架之上,反复去噪似乎已经成为视频 world model 的默认实现方式,normalizing flow 虽然在图像生成中重新受到关注,却始终没有真正进入视频生成主流。

STARFlow-V 试图回答的是:高质量视频生成是否真的只有 diffusion 这一条路。为此,论文并没有简单把图像 flow 结构迁移到视频,而是针对视频生成的长时序依赖和跨帧一致性,在时空 latent 空间中重新构建了一套 global-local 的 autoregressive normalizing flow 架构:

全局 latent 用于控制跨帧因果依赖,减少长视频中误差逐帧累积的问题,局部 latent 则保留帧内细节交互,保证空间纹理质量。

同时,作者进一步引入 flow-score matching,通过轻量级 causal denoiser 提升自回归生成过程中的时间一致性,并利用 video-aware Jacobi iteration 提高内部更新的并行效率。

也就是说,它并不是在 diffusion 框架内继续做采样优化,而是直接打破“高质量视频生成必须依赖 diffusion 反复去噪”的默认前提,建立起一种基于 normalizing flow 的端到端视频生成范式。

更重要的是,由于 flow 天然具备可逆结构和显式 likelihood 估计能力,同一个 STARFlow-V 模型就能够原生支持 text-to-video、image-to-video 以及 video-to-video 多种任务,不需要为不同任务额外堆叠复杂分支,这使它不仅是一个替代架构,更像是在重新打开视频生成的技术路线图。

如果说前两篇工作还主要集中在“生成过程如何被重新控制与重新实现”,那么由 MIT 团队提出的《Back to Basics: Let Denoising Generative Models Denoise》则把审视进一步推回到扩散模型最核心的预测对象上。雷峰网

当前主流 denoising diffusion model 虽然名义上是“去噪生成模型”,但大多数做法实际上并不直接预测干净图像,而是让模型去拟合噪声残差或带噪中间量,这一设定在工程上已经沿用多年,却很少有人重新追问它是否真的是最合理的生成目标。

他们的研究指出,按照流形假设,自然图像分布位于相对低维且连续的数据流形,而噪声空间则高维、分散且更难拟合;从这个角度看,让模型直接学习回到 clean data,本身可能比在高维噪声空间中预测 noised quantity 更自然、更稳定。

基于这一认识,作者提出 JiT(Just image Transformers),不再依赖额外 tokenizer、复杂预训练模块或辅助损失,而是直接使用大 patch Transformer 在原始像素空间完成 clean image 预测。

这个设计表面上看是“回归朴素”,但它真正打破的是“扩散模型默认预测噪声”的路径依赖,重新建立起一种以直接回归数据流形为核心的生成思路,也让 Transformer-based diffusion 在高分辨率自然图像上的建模逻辑变得更加自洽。

生成模型开始从「会生成」走向「会精确编排」

当视觉生成模型不断回到底层机制做重构时,另一部分工作则开始把注意力转向“模型生成结果到底能被控制到什么程度”。由德国图宾根大学、Tübingen AI Center 以及马克斯·普朗克信息学研究所共同提出的《FrankenMotion: Part-level Human Motion Generation and Composition》就是其中非常典型的一例。

当前文本驱动人体动作生成虽然已经能够根据整体动作描述生成相对自然的人体运动,但模型控制依然停留在粗粒度层面:它能理解“一个人在走路”“一个人在挥手”,却很难精确回答“左手什么时候抬起”“下半身何时转向”“动作切换发生在哪一帧”。

造成这一问题的核心原因,一方面在于现有 mocap 数据大多只有序列级动作标签,缺少按时间对齐、按身体部位拆分的细粒度标注;另一方面,模型即使理解整体语义,也很难同时兼顾局部肢体动作与全局时序一致性。

FrankenMotion 正是重新把复杂人体运动视为由多个“原子动作单元”组成,并尝试让模型学习这些身体部位级动作之间的组合关系。

论文首先借助 FrankenAgent 自动为已有动作序列生成逐帧、逐身体部位且时间对齐的层级文本标注,构建新的 FrankenStein 数据集;随后训练 FrankenMotion 同时接收序列级、动作级和身体部位级条件,使模型不仅知道“做什么动作”,还知道“哪部分身体在什么时候做”。

这意味着人体动作生成开始从“生成一个合理动作片段”转向“按指令精确编排复杂动作组合”,模型能够组合出训练集中并未直接出现过的细粒度复合动作。

与这种细粒度控制需求相对应,视觉理解中的匹配任务也在经历类似的范式转向。由意大利都灵理工大学、TU Darmstadt、hessian.AI 以及 ELIZA 共同提出的

由而意大利都灵理工大学(Politecnico di Torino)、德国达姆施塔特工业大学(TU Darmstadt)、德国黑森州人工智能研究院(hessian.AI)以及 ELIZA 共同提出的《MARCO: Navigating the Unseen Space of Semantic Correspondence》。

关注的则是语义对应(semantic correspondence)里一个很现实却常被 benchmark 掩盖的问题:现有方法虽然在已标注关键点上精度很高,但一旦查询点超出训练时见过的关键点位置,或者遇到未见类别,泛化能力就会迅速下降,导致 benchmark 成绩与真实可用性之间存在明显落差。

当前主流语义对应模型通常采用 DINOv2 加 diffusion backbone 的双编码器架构,虽然效果强,但模型规模接近十亿参数,计算开销大,而且依赖稀疏关键点监督时很难学到真正连续、致密的语义匹配关系。

MARCO 的核心切入点,就是不再满足于“在标注点上对得准”,而是尝试让模型学会在未被标注的空间中也能推断合理的对应关系。

为此,论文在 DINOv2 基础上构建了一个更统一、更轻量的对应框架,并结合 coarse-to-fine 的定位目标提升细粒度空间精度,同时引入一种 dense self-distillation 机制,把原本稀疏的关键点监督逐步扩展成更致密的语义对齐信号。

这种设计带来的变化在于,模型不只是记住训练时出现过的对应点,而是开始学习物体表面更连续的结构关联,因此在 unseen keypoints 和 unseen categories 上都表现出更强泛化能力。

实验结果显示,MARCO 不仅在 SPair-71k、AP-10K、PF-PASCAL 等标准基准上刷新了性能,在更严格的细粒度定位阈值和未见关键点测试中提升尤其明显;与此同时,它相比 diffusion-based 方法还实现了约 3 倍更小、10 倍更快 的效率优势。

这篇工作的价值在于,它打破了语义对应领域长期“高 benchmark 分数 ≠ 强真实泛化”的隐性瓶颈,建立起一种更强调致密推断和未见空间泛化的建模思路,使 semantic correspondence 从“在标注点上匹配”,进一步走向“在整片语义空间中寻找对应”。

把这几项工作放在一起看,会发现它们虽然分别来自扩散控制、视频生成、人体动作生成和语义对应等不同方向,但背后其实共享着同一条更深层的研究脉络:视觉 AI 正在从“沿着既定范式堆模型、调参数、刷 benchmark”,转向“重新拆掉那些被默认正确的底层设定,再建立新的生成目标、控制机制和表示方式”。雷峰网

有的工作在重新定义扩散模型应该如何引导,有的在重新打开视频生成不止 diffusion 一条路的可能性,有的在追问生成模型到底该预测噪声还是直接预测数据流形,也有的在把模型控制粒度和泛化空间从粗粒度推进到更连续、更真实的层面。

换句话说,真正值得注意的已经不只是某一个模型分数提升了多少,而是这一批工作共同释放出的信号:视觉模型的下一轮竞争,正在从性能增量竞争,转向底层建模范式的重构竞争。

]]> 人工智能 https://www.leiphone.com/category/ai/z1AQwQ3RWjfvOGZe.html#comments Thu, 30 Apr 2026 10:42:00 +0800 CVPR 2026 多模态视觉智能全景梳理:从感知到推理的范式重写 https://www.leiphone.com/category/ai/SvE2BMZTXBVCKszD.html 如果回看过去十年的计算机视觉发展,其主线其实非常清晰:从早期以 ImageNet classification 为代表的“识别范式”,到以检测、分割为核心的“结构理解”,再到扩散模型推动的“生成范式”,视觉研究始终围绕一个核心目标展开——让机器更准确地“看见世界”。

然而,这一路径在近两年开始出现明显的边界:当模型已经可以在静态图像上达到接近甚至超过人类的感知水平时,“看得更准”本身,正在变成一个边际收益递减的问题。

在这样的背景下,在 CVPR 2026 中的一些相关工作所呈现出的,不再只是性能曲线的继续上扬,而是一种更深层的范式转向:视觉不再被视为终点,而被重新定位为一种中介能力,它服务于更高层的目标,例如推理、决策与交互。

这种变化直接体现在多个层面:一方面,越来越多工作开始质疑以语言为中心的推理路径,尝试让模型在视觉或潜在空间中直接完成结构推理;另一方面,研究者也在反思现有评测体系与数据构建方式,因为如果评价标准本身存在偏差,那么所谓的“进步”很可能只是对 benchmark 的过拟合。

更重要的是,这一届论文并不是在单一方向上推进,而是呈现出一种系统性重构的迹象:推理机制上,从“始终推理”走向“按需推理”,从显式链式推理走向隐式表示推理。

评测层面,从选择题式的便捷评估走向更接近真实能力的开放式验证;模型形态上,从单一任务模型演进为支持图像、视频与定位的一体化多模态系统;而在数据层面,则从零散数据集走向规模化、结构化且任务驱动的数据基础设施。

这些变化背后隐含着一个更深的共识正在形成:视觉智能的瓶颈,已经不再只是模型能力本身,而是“推理方式、评测范式、系统形态与数据供给”之间的协同问题。

基于这样的整体趋势,AI 科技评论对本届具有代表性的工作进行了系统梳理,从推理机制的重构、评测范式的反思、模型系统的演进以及数据基础设施的升级四个关键维度出发,选取了一系列具有标志性意义的论文,试图还原这一轮视觉智能范式转变的核心脉络。

推理,可能一直用错了

如果说过去的多模态研究默认一种路径——无论任务难易,模型都应该通过 Chain-of-Thought 展开逐步推理,那么由 Meta AI、KAUST 以及普林斯顿大学共同提出的《 VideoAutoThink: Video Auto Reasoning via Thinking Once, Answering Twice》实际上是在动摇这个前提本身。

在视频理解任务中,主流方法往往依赖显式推理来提升性能,但作者通过实验观察到一个并不直观的现象:对于经过强化学习优化的视频模型,直接回答在不少情况下已经可以达到,甚至超过带推理的结果。这意味着问题并不在于模型缺乏推理能力,而在于“每一次都推理”本身可能是低效甚至冗余的。

基于这一点,论文提出了 VideoAuto-R1 框架,与其说是在增强推理,不如说是在重新调度推理。模型在训练阶段采用一种“Thinking Once, Answering Twice”的机制:先生成一个初始答案,再进行推理得到修正后的答案,并同时对这两个输出进行监督学习,使模型既具备快速响应能力,又具备在必要时进行深入推理的能力。

而在推理阶段,模型不会固定执行推理流程,而是根据初始答案的置信度动态决策——如果问题简单,则直接输出结果;如果问题复杂,才触发后续推理。

这种设计把“是否推理”从一个人为设定的流程,转变为模型自身可以学习的决策变量。实验结果进一步说明,这种按需推理的方式不仅没有损失性能,反而在保持当前最优水平的同时,将平均输出长度减少约 3.3 倍。

同时也揭示出一个更细粒度的规律:在感知类任务中,推理的作用相对有限,而在真正需要复杂逻辑的任务中,推理才显得关键。

这篇论文的亮点主要体现在三个方面。首先,它提出了一种“按需推理”的新范式,使模型不再固定执行复杂推理流程,从而显著提高效率。

其次,通过“双答案训练机制”,模型在保持高性能的同时减少不必要的推理开销,在实验中将平均输出长度减少约 3.3 倍,同时仍达到当前最优水平。

最后,论文揭示了一个重要现象,即推理并不是在所有任务中都必要,在感知类任务中使用较少,而在复杂推理任务中才更有价值,这为后续多模态模型设计提供了重要启发 。

总体来看,这篇论文的核心贡献是提出了一种“按需触发推理”的视频理解框架,使多模态模型在保证性能的同时显著提升效率,从而推动视频理解从“始终推理”向“自适应推理”转变。

如果说 VideoAuto-R1 是在回答“推理是否必须发生”,那么由加州大学伯克利分校、Xero 以及 MIT-IBM Watson AI Lab 共同提出的《Latent Visual Reasoning》则是在追问另一个更隐蔽的问题——即便发生了推理,它是否一定要以语言为中介。

当前多模态模型虽然能够处理视觉输入,但其内部推理过程依然高度依赖语言表示,这在处理拼图、空间对应关系、几何结构等任务时会遇到表达瓶颈,因为这些结构本身很难被线性的文本步骤充分刻画。

同时,已有方法往往依赖人工设计的中间监督信号(例如边界框或裁剪区域),不仅标注成本高,也限制了模型学习更灵活的视觉表示能力。

在这种背景下,LIVR(Latent Implicit Visual Reasoning)提出了一种不同路径:与其显式构造推理步骤,不如让模型在潜在空间中自行形成推理结构。

具体来说,方法在输入中引入一组 latent visual tokens,并通过一种“视觉瓶颈机制”强制模型在预测答案时只能通过这些 token 获取视觉信息,而不能直接访问原始图像特征。这种限制实际上迫使模型将关键信息压缩并编码进这些潜在表示中,从而在 latent 空间中完成信息组织与推理。

训练过程分为两个阶段:首先学习 latent token 如何承载视觉信息,其次恢复完整结构进行联合优化。最终得到的不是一条可读的推理链,而是一种隐式的、内嵌在表示中的推理过程。这种方式不依赖显式中间监督,却在多个视觉任务和不同模型架构上都带来了稳定性能提升,说明这种“去语言化”的推理机制具备较强的泛化能力。

这篇论文的亮点主要体现在三个方面。首先,它提出了一种不依赖显式监督的视觉推理方式,模型可以自动学习中间表示,而不需要人工设计推理步骤。

其次,它将推理从“文本链式推理”扩展到“潜在空间推理”,使模型能够更自然地表达复杂视觉结构。最后,该方法具有很强的通用性,在多个视觉任务和多模型上都能稳定提升性能,说明这种隐式视觉推理机制具有良好的泛化能力 。

总体来看,这篇论文的核心贡献是提出了一种基于潜在 token 的隐式视觉推理框架,使多模态模型从依赖语言进行推理,转向在内部表示中进行更高效、更灵活的视觉推理。

而麻省理工学院(MIT)的研究论文《ARC Is a Vision Problem!》则更进一步,直接打破了问题本身的建模方式。ARC(抽象推理基准)长期以来被视为语言推理任务,大量方法依赖大语言模型进行规则归纳与解释,但这篇论文指出,这种处理方式可能从一开始就偏离了问题本质。

与其说 ARC 是一个需要语言推理的问题,不如说它是一个典型的视觉结构变换问题,其核心在于空间关系、对称性以及几何规律,而非语言逻辑。

基于这一重新定义,研究将 ARC 建模为一个图像到图像的映射任务:首先将原始网格嵌入到一个“画布(canvas)”中,使其可以像自然图像一样被处理;随后直接使用标准视觉模型(例如 Vision Transformer)学习从输入到输出的空间变换规则。

在推理阶段,方法进一步引入测试时训练(test-time training),使模型能够在看到少量示例后进行快速适应,从而实现跨任务泛化。

值得注意的是,这种方法并不依赖大规模预训练数据,但依然能够在 ARC 上取得接近人类水平的性能,同时显著缩小与大型语言模型之间的差距。其背后依赖的是视觉模型天然具备的归纳偏置,例如空间局部性、平移不变性和尺度不变性,这些特性使模型能够更自然地学习抽象规则,并在少样本场景中展现出更强的泛化能力。

总体来看,这篇论文的核心贡献是将 ARC 问题从“语言推理”重新定义为“视觉建模问题”,并证明基于视觉的方法可以有效学习抽象规则,从而为通用推理模型提供了一种新的方向。

把这几项工作放在一起看,会发现它们并不是简单地提升模型能力,而是在逐步拆解“推理”这一概念本身:如果说过去的路径是默认所有问题都需要通过语言展开推理,那么现在的趋势更像是在重新分工,有些问题本质上是感知问题,可以直接回答。

有些推理可以在潜在表示中完成,而不需要显式展开;还有一些任务甚至需要先被重新定义,才能找到更合适的建模方式。也正是在这种不断打破既有假设、并建立新范式的过程中,多模态模型开始从“始终推理”的范式,转向一种更具适应性的“按需与多形态推理”。

评测,正在误导一切

如果说现有视觉语言模型的评测大多还停留在“看懂了什么”这一层,那么由清华大学电机工程系、清华大学深圳国际研究生院、清华大学交叉信息研究院与理想汽车共同提出的 《VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments》,则把问题推进到了更接近真实世界的一步:模型不仅要看懂环境,还要在多个智能体共同参与的场景中理解合作、竞争与策略选择。

现实任务往往不是单一主体面对静态图像,而是多个智能体在同一环境中相互影响,既可能合作,也可能竞争,还可能处在混合动机之下;但已有基准大多局限于单智能体或纯文本环境,很难真正衡量 VLM 在复杂交互场景中的策略能力。

基于这个缺口,论文提出了 VS-Bench(Visual Strategic Benchmark),构建了一个多模态、多智能体的统一评测环境,其中包含 10 个视觉驱动的交互场景,覆盖合作、竞争以及混合动机等任务类型。

更重要的是,它没有只看最终答对与否,而是把模型能力拆成三个层次来评估:首先是感知能力,也就是能否识别环境元素;其次是策略推理能力,即能否预测下一步行动;最后是决策能力,也就是模型在整体任务中的实际表现。

这样的拆分让评测结果不再只是一个分数,而能进一步看出模型到底是“没看懂”,还是“看懂了但不会推理”,又或者是“能推理但决策不稳”。

实验中,作者测试了多个主流视觉语言模型,结果显示这些模型虽然在感知层面已经表现较强,但在策略推理和决策上仍然存在明显差距。也就是说,它们很多时候是“看得懂环境”,却还没有真正具备在复杂交互中做出好决策的能力。

这篇工作的价值也正在这里:它首次建立了一个面向多智能体与多模态场景的统一评测框架,弥补了现有基准在复杂交互任务上的空缺;同时又通过感知、推理、决策三层拆解,让 VLM 的能力分析更细致、更可解释。

与其说它只是增加了一个新 benchmark,不如说它把视觉语言模型的评估范围,从单一图像理解扩展到了策略推理与交互决策,从而为后续研究明确指出了一个关键短板:当前模型已经越来越会“看”,但还远没有真正学会在多智能体环境中“谋”。

相比之下中国科学院自动化研究所、中国科学院大学人工智能学院、智源 FlagEval 团队、北京航空航天大学、北京大学、浙江大学共同提出的 《Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT》,则把目光转向了另一个更基础、却同样影响深远的问题:我们现在用来训练和评估多模态模型的题目形式,本身是否可靠。

当前大量视觉问答基准采用多项选择问答(MCQA),这种形式确实方便自动评测,但论文指出,选项本身常常会泄露额外信息,使模型即使没有真正理解图像和问题,也能通过排除法、选项偏差或猜测模式拿到较高分数。换句话说,模型分数看起来变高了,但真实能力可能被系统性高估。

为了解决这个问题,论文提出了 ReVeL(Rewrite and Verify by LLM) 框架,试图打破对选择题形式的依赖,建立一种“可验证开放问答”的新范式。雷峰网

它的核心做法并不是简单删除选项,而是根据不同问题类型设计对应的重写策略和验证机制,把原本依赖选项的信息重新组织成开放式问答形式,同时保留自动验证答案的能力。这样一来,模型在回答时不能再借助选项进行投机性推理,而必须真正基于视觉内容和问题语义生成答案。

在训练阶段,作者进一步利用这些转换后的数据对视觉语言模型进行强化微调,使训练信号更加接近真实开放场景,也降低了 MCQA 选项偏差带来的干扰。

这篇论文最关键的贡献,是把一个长期被默认接受的评测形式重新问题化了。作者不仅指出 MCQA 存在“虚高”风险,还通过实验量化了这种偏差,发现分数可能被高估多达约 20 个百分点。

在此基础上,ReVeL 又提供了一条从“选择题评测”走向“可验证开放问答”的路径。它既保留了自动评测的可操作性,又迫使模型摆脱对选项线索的依赖,从而提升开放问答能力、数据效率和训练稳健性。

与其说这项工作只是换了一种题型,不如说它在打破多模态评测中“方便评估等于有效评估”的惯性,并建立起一种更接近真实应用的训练与评估方式。

把这两篇放在一起看,会发现它们都在推动视觉语言模型评测从“表面正确”走向“能力真实”。VS-Bench 追问的是:模型能否在多智能体环境中完成策略推理与决策;ReVeL 追问的是:模型看似答对时,是否真的理解了问题,而不是被选项提示带着走。

前者把评估场景从单一理解扩展到复杂交互,后者把评估形式从多项选择推进到可验证开放问答。它们共同指向的是同一个趋势:未来的多模态模型不能只在静态、封闭、容易打分的任务上取得高分,而必须在更开放、更动态、更接近真实世界的任务中证明自己的理解、推理和决策能力。

不是小修小补,而是整体重建

与不少已经具备图像理解能力的开源视觉语言模型相比,由 Allen Institute for AI 和 华盛顿大学共同提出的《Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding》则把关注点进一步延伸到了两个更关键的方向:一是视频理解能力,二是语言与视觉之间的精细对齐。

当前主流开源 VLM 虽然在单张图像理解上已经取得不错效果,但在处理视频这种时序信息更复杂的输入时仍然能力有限,同时在将语言描述精确对应到具体视觉区域方面也存在明显不足。

更深一层的问题在于“开源”的不彻底:不少模型仅开放部分权重,训练数据、数据来源或训练流程并不透明,甚至依赖闭源模型蒸馏,这使得结果难以复现,也限制了后续研究的可持续发展。

Molmo2 的切入点正是同时回应这两个问题。它不仅扩展了输入形式,从单图、多图进一步覆盖到视频,还在模型中引入了 grounding 能力,使模型能够将语言中的描述精确映射到图像或视频中的具体区域。

这样一来,模型不再只是回答“看到了什么”,而是能够进一步回答“具体在哪里”,在理解与定位之间建立更紧密的联系。雷峰网

在方法之外,这篇论文的亮点同样瞩目。首先,它提供了一个完全开源的视觉语言模型体系,不仅开放模型,还开放数据和训练流程,这在当前多模态领域中较为少见。

其次,它将能力从图像扩展到视频,并且加入了精细的定位能力,使模型不仅能“看懂”,还可以“指出具体位置”。最后,该工作在开放性和性能之间取得了平衡,为后续研究提供了一个可直接使用和扩展的基础模型框架。

总体来看,这篇论文的核心贡献是构建了一套完全开放、支持视频理解与定位能力的视觉语言模型体系,使多模态模型从“只理解图像”进一步发展为“能够理解视频并进行精细对齐”的统一框架。

不是缺模型,而是缺数据

而由苹果公司提出的 《Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing》,则是把焦点放在文本驱动图像编辑里一个基础但长期缺口明显的问题上:模型想要根据自然语言指令修改图像,离不开大规模、高质量、开放且贴近真实场景的数据,但现有数据集往往要么规模有限,要么主要依赖合成图像,难以覆盖真实图像中的复杂内容、多样物体关系和开放场景变化。

Pico-Banana-400K 正是围绕这一数据瓶颈构建的。论文基于来自 OpenImages 的真实图像,利用多模态模型自动生成编辑指令和对应编辑结果,从而形成大规模的“图像 - 指令 - 编辑结果”三元组数据集。

它并不只是简单堆数据,而是在构建过程中引入细粒度编辑分类体系和多模态模型评分机制,用来同时保证两件事:编辑结果要符合指令,修改后又要尽可能保持原始图像内容的一致性。

更进一步,这个数据集的设计也没有停留在单步编辑。除了基础的单轮“给一张图、按一句话编辑”之外,它还包含多轮编辑数据、偏好数据以及长短指令对,因而可以支持更复杂的推理、规划和对齐研究。

也就是说,Pico-Banana-400K 不只是为图像编辑模型补充训练样本,而是在尝试把文本驱动图像编辑从一次性操作,推进到更接近真实使用场景的连续编辑、偏好对齐和指令理解。

这篇工作的价值主要在于,它以 40 万级别的高质量真实图像编辑数据,填补了 instruction-based image editing 领域长期缺少开放大规模数据的空白,同时又通过系统化的数据构建流程,在规模、质量和多样性之间取得平衡。

它打破了以往图像编辑数据过小、过合成、任务形式单一的限制,建立起一个更标准化的基础设施,为后续文本驱动图像编辑模型的训练、评测和对齐提供了更扎实的起点。

]]> 人工智能 https://www.leiphone.com/category/ai/SvE2BMZTXBVCKszD.html#comments Thu, 30 Apr 2026 10:37:00 +0800 CVPR 2026 世界模型论文全景梳理:从生成到建模的关键转变 https://www.leiphone.com/category/ai/mZ0DTeI4cHjy1OFn.html 在过去几年中,视频生成技术取得了令人瞩目的进展。从基于扩散模型的方法到大规模视频基础模型,生成结果在视觉质量上已经逐渐逼近真实世界。然而,当我们进一步审视这些模型时,一个更本质的问题开始显现:它们究竟是在“理解世界”,还是仅仅在“拟合像素分布”?

传统视频生成方法大多建立在 2D 图像空间之上,通过逐帧建模来合成动态内容。这种范式虽然在短时间尺度和视觉表现上表现出色,但也暴露出一系列根本性局限:相机运动难以精确控制,多物体交互缺乏一致性,长时间生成容易出现结构漂移,甚至在复杂场景中违背基本物理规律。这些问题的共同根源在于模型缺乏对“世界本身”的建模能力。

正是在这一背景下,“世界模型(World Model)”逐渐成为视觉生成与智能系统中的核心研究方向。与传统方法不同,世界模型试图构建一个能够统一描述空间结构、时间演化以及物理规律的内部表示,使模型不仅能够生成视觉内容,还能够进行推理、预测,甚至支持决策。从某种意义上说,这一转变标志着研究目标从“生成看起来真实的结果”,迈向“建模一个本质上合理的世界”。

这一范式的演进正在多个维度同时发生:在表示层面,从 2D 像素走向 3D/4D 几何结构;在建模目标上,从单纯生成扩展到因果关系、物理一致性与可交互性;在学习方式上,从依赖标注数据转向从真实世界视频中提取可迁移知识;而在评估体系上,也逐渐从单一视觉指标转向对“世界建模能力”的多维度衡量。

CVPR 2026 中的一系列工作,正集中体现了这一趋势。这些研究不仅在技术路径上各有侧重,有的强调 4D 几何建模,有的关注物理对齐与因果建模,有的探索从真实视频中学习世界知识,还有的致力于构建统一评测体系,更重要的是,它们共同指向一个核心目标:让模型从“生成工具”演化为“世界模拟器”。

AI 科技评论对这些代表性工作进行了系统梳理,从建模范式、控制能力、物理一致性、可扩展性以及评测方法等多个角度,解析当前世界模型研究的关键进展与内在逻辑,尝试回答一个更深层的问题:当我们谈论“生成世界”时,我们究竟在建模什么?

世界在模型里到底长什么样?

论文《VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control》是由复旦大学、香港大学联合 Tencent ARC(腾讯应用研究中心)研究团队提出的一项视频生成研究成果 。

它主要针对当前视频生成模型的一个核心问题:现有方法大多在 2D 图像空间中建模,导致相机运动和多物体运动难以统一控制、且生成结果容易不稳定。

为了解决这一问题,论文提出了一种新的 4D 几何世界建模方法,将视频表示为“3D 空间 + 时间”的统一世界状态,而不是简单的逐帧像素生成。

在具体方法上,作者提出了一个关键技术:4D Geometric Control 表示。这个表示用静态背景点云来描述场景结构,用带时间信息的 3D 高斯轨迹来描述动态物体,从而构建一个统一的 4D 世界模型 。

在这个世界模型基础上,再将几何信息转化为控制信号,输入到视频扩散模型中进行生成,使最终视频能够严格遵循设定的相机路径和物体运动。

这项工作的亮点主要体现在三个方面:首先,它实现了从传统 2D 像素生成向 4D 几何建模范式的转变,使视频生成更接近真实世界建模;

其次,它在同一框架下实现了对相机运动和多物体运动的统一、精确控制,相比以往依赖 2D 轨迹或边界框的方法更加灵活且一致;

最后,由于引入了显式的 3D 结构和时间约束,模型在时序一致性和稳定性方面显著提升,生成的视频在长时间范围内更加连贯、真实 。

总体来说,这篇论文的核心贡献可以概括为:提出了一种基于 4D 几何控制的世界模型框架,使视频生成从“基于像素的合成”转向“基于结构的生成”,从而在可控性和稳定性上取得了明显提升。

论文《NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos》是由中国科学院自动化研究所和 CreateAI 共同提出。

这项研究主要围绕 4D 世界模型的一个关键问题展开,即现有方法往往依赖多视角数据或复杂预处理,导致扩展性差,很难直接利用真实世界中大量随手拍摄的单目视频。

为了解决这一问题,论文提出了一个新的框架 NeoVerse,其核心思路是利用“自然场景中的单目视频”来构建 4D 世界模型。具体来说,模型可以从普通视频中恢复场景的 3D 结构,并进一步建模随时间变化的动态信息,从而实现完整的 4D 表示。

在此基础上,该模型不仅能够进行 4D 重建,还可以生成新的相机轨迹视频,并支持多种下游任务。

这篇论文的亮点主要体现在三个方面。首先,它突破了以往对多视角或专用数据的依赖,直接使用“野外采集”的单目视频进行训练,大幅提升了方法的可扩展性和数据可获得性。

其次,它在同一框架中统一了 4D 重建与视频生成能力,使模型既可以理解场景结构,又可以生成新的视角和动态内容。最后,通过这种方式,模型在真实场景中的泛化能力更强,能够更好地适应复杂环境,而不是局限于受控数据集。

总体来看,这篇论文的核心贡献在于提出了一种基于单目视频构建 4D 世界模型的方法,使 4D 建模从依赖昂贵数据采集,转向可以利用大规模真实视频,从而显著提升了实用性与扩展能力。

论文《LongStream: Long-Sequence Streaming Autoregressive Visual Geometry》是由香港科技大学(广州)、地平线机器人、浙江大学和中南大学等研究团队提出。

论文关注的是一个非常核心但长期没有很好解决的问题:长序列 3D 重建。现有方法通常在短序列或离线场景下表现不错,但一旦处理上千帧的长视频,就会出现明显问题,例如注意力逐渐衰减、尺度不断漂移,以及预测误差累积,最终导致整体重建不稳定甚至失效 。

这些问题的根本原因在于,大多数自回归模型都会把所有帧“锚定”到第一帧,从而在长时间推理中不断放大误差 。

为了解决这一问题,论文提出了 LongStream 框架,核心思路是构建一种流式的、规范解耦(gauge-decoupled)的视觉几何模型。

具体来说,它不再把所有帧绑定到初始帧,而是通过“关键帧相对建模”的方式,让每一段局部序列独立建模,同时再统一到全局结构中。此外,模型将“尺度学习”和“几何预测”进行解耦,使尺度不会在长序列中逐渐漂移。同时,通过周期性刷新缓存和流式更新机制,模型可以在严格在线(看不到未来帧)的条件下稳定处理上千帧数据 。

这篇论文的亮点主要体现在三个方面。首先,它提出了一种真正面向长序列的流式 3D 重建框架,能够在在线场景中处理上千帧甚至更长的视频,这是以往方法难以实现的。

其次,它通过“规范解耦”的方式,从根本上解决了尺度漂移和误差累积问题,使长时间建模更加稳定。最后,该方法在效率和稳定性之间取得了较好平衡,可以在现实应用场景中落地,例如自动驾驶、AR/VR 和具身智能中的持续环境建模。

总体来看,这篇论文的核心贡献是提出了一种面向长时序视频的稳定 3D 世界建模方法,使模型能够在严格在线条件下持续构建一致的三维世界,从而推动世界模型向真实应用场景迈进。

模型有没有学到可以迁移的世界规律?

论文《VideoWorld 2: Learning Transferable Knowledge from Real-world Videos》是由北京交通大学和字节研究团队共同提出。

这项研究关注的核心问题是,模型是否能够像人一样,仅通过观看真实世界的视频,就学习到可以迁移到新环境中的通用知识。论文指出,现有视频模型大多侧重生成视觉效果,虽然画面逼真,但缺乏对物体运动规律、交互关系以及时序结构的理解能力,因此难以在新场景中泛化。

为了解决这一问题,论文提出了 VideoWorld 2 框架,其核心思路是直接从大规模无标注的真实视频中学习世界知识。

模型不依赖人工标注,而是通过观察视频中的动态过程,自主学习物理规律、物体交互以及时间变化,并将这些信息编码为一种可复用的表示,使其能够迁移到不同任务和环境中。相比传统视频生成方法只关注图像外观,这种方法更强调从视频中提取“可以用于理解和推理的知识”。

这篇论文的亮点主要体现在三个方面。首先,它将研究重点从生成逼真的视频转向从视频中学习可迁移知识,使模型从“会生成”发展到“会理解”。

其次,它直接利用真实世界视频进行训练,减少对模拟环境或人工构造数据的依赖,使方法更加贴近真实应用场景。最后,这种方法在一定程度上兼顾了视觉生成能力与知识表达能力,使模型既能够保持较好的生成效果,又具备更强的泛化能力。

总体来看,这篇论文的核心贡献在于提出了一种从真实视频中学习世界知识的框架,使视频模型从单纯的生成工具,发展为能够理解并泛化现实世界规律的模型。

论文《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》是由中山大学、鹏城实验室等科研团队共同提出。

论文关注的问题是当前视频生成模型虽然在视觉效果上已经较好,但在物理一致性方面仍然存在明显不足,例如物体运动不符合真实物理规律,或者复杂场景中的交互不合理。这一问题的根本原因在于现有方法缺乏对物理规律的显式建模,同时无法将物理信息精确地对齐到视频中的具体空间位置。

为了解决这一问题,论文提出了 ProPhy 框架,其核心思路是引入一种“渐进式物理对齐机制”。模型通过一个两阶段的结构来建模物理信息:首先在语义层面提取文本中的物理规律,例如运动类型或物理现象,然后在更细粒度的层面,将这些物理规律精确对齐到视频中的具体区域和时间过程。

同时,模型采用“物理专家混合机制”,让不同模块分别学习不同类型的物理规律,从而形成更加细致的物理建模能力。此外,论文还将视觉语言模型的物理推理能力引入生成过程,使模型能够更准确地表达复杂动态现象。

这篇论文的亮点主要体现在三个方面。首先,它提出了显式的物理建模机制,使视频生成不再只是视觉逼真,而是能够遵循真实物理规律。其次,它实现了从语义级到细粒度空间级的逐步对齐,使不同物理现象能够准确作用在对应区域,而不是全局混合。

最后,通过引入“物理专家”结构和视觉语言模型的推理能力,模型在复杂动态场景中生成的视频更加稳定、合理,并在物理一致性方面明显优于已有方法。

总体来看,这篇论文的核心贡献是提出了一种面向物理一致性的生成框架,使视频生成模型从单纯追求视觉真实,进一步发展为能够遵循真实物理规律的世界模型。

论文《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》是由四川大学、香港理工大学、电子科技大学、阿德莱德大学研究团队共同提出。

论文关注的问题是当前视频生成模型在“物理一致性”上的不足。虽然现有视频扩散模型可以生成视觉上真实的画面,但在描述复杂物理过程时,往往只能生成某一个瞬间,而无法正确表达事件之间的因果关系和连续变化,例如液体流动、能量变化等动态过程 。

为了解决这一问题,论文提出了一种以“事件为中心”的生成框架,其核心思路是把一个物理现象看作一系列按因果顺序发展的事件链,而不是一个静态描述。

具体方法包括两个关键模块:首先是“物理驱动的事件链推理”,将复杂物理过程拆解为多个有明确因果关系的子事件,并通过引入物理公式作为约束,使这些事件之间的关系具有确定性;其次是“跨模态过渡建模”,将这些事件转化为时间对齐的文本和视觉提示,例如关键帧和语义描述,从而引导视频生成过程在不同事件之间平滑过渡。

这篇论文的亮点主要体现在三个方面。首先,它提出了“事件链”这一新的建模方式,使视频生成从描述单一画面转向描述完整的因果过程,从而更接近真实世界。

其次,它将物理公式引入推理过程,使生成内容不仅在视觉上合理,也在物理规律上更加可信。最后,通过结合语义提示和关键帧的跨模态控制方式,模型能够在不同事件之间保持连续性,从而生成具有时间一致性和因果一致性的动态视频 。

总体来看,这篇论文的核心贡献是提出了一种基于因果事件链的物理视频生成框架,使视频生成从“生成一个结果”发展为“生成一个符合物理规律的动态过程”,在物理一致性和时序建模方面都有明显提升。

能不能精确控制生成的世界?

论文《Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control 》是由西湖大学和南阳理工大学的研究团队共同提出。

论文主要研究的是视频扩散模型在 3D 和 4D 场景生成中的一个核心问题,即虽然这些模型已经具备很强的“世界先验”,但在实际使用中存在三个关键缺陷,包括难以精确控制相机运动、时空一致性差以及场景与相机运动耦合在一起,导致生成结果不稳定或者不符合预期。

为了解决这一问题,论文提出了一个新的框架 WorldForge,其核心思路是在不重新训练模型的情况下,仅通过推理阶段对已有视频扩散模型进行控制增强。

具体来说,该方法由三个关键机制组成:首先是在扩散去噪过程中加入递归优化,使生成过程逐步贴合目标相机轨迹;其次利用光流信息在潜空间中区分“运动”和“外观”,从而只对运动相关部分进行控制;最后通过双路径对比机制,将有控制与无控制的生成过程进行比较,自动修正偏差,从而避免轨迹漂移。

这篇论文的亮点主要体现在几个方面。首先,它提出了一种完全不需要训练的控制方法,只在推理阶段进行修改,大幅降低了成本,同时避免破坏原有模型能力。

其次,它实现了对相机轨迹的精确控制,同时保持较高的视觉质量,解决了以往方法中“控制和质量难以兼顾”的问题。最后,该方法具有很强的通用性,是一个“即插即用”的框架,可以直接应用在不同的视频扩散模型上,并支持多种任务,例如 3D 重建、4D 场景生成以及视频编辑等。

总体来看,这篇论文的核心贡献是提出了一种无需训练的控制框架,使视频扩散模型能够在保持生成质量的同时,实现精确的几何和运动控制,从而推动其在 3D 和 4D 世界建模任务中的应用。雷峰网

模型不仅表示世界,还要「用世界做事」

论文《DriveLaW: Unifying Planning and Video Generation in a Latent Driving World 》是由华中科技大学和小米 EV 团队共同提出。

论文研究的是自动驾驶中的一个关键问题,即如何让“世界模型”不仅能够预测未来场景,还能直接参与决策与规划。现有方法通常把两个过程分开处理,一部分模型负责预测未来视频或场景变化,另一部分模块负责根据这些预测结果进行路径规划,这种解耦方式会导致信息利用不充分,并且在复杂场景中容易出现误差累积。

为了解决这一问题,论文提出了一个新的框架 DriveLaW,其核心思路是在一个统一的“潜在驾驶世界(latent driving world)”中,同时进行视频生成和运动规划。

模型首先在潜在空间中学习驾驶场景的动态演化规律,然后在这个空间中直接进行决策推理,而不是先生成完整视频再做规划。这样一来,预测和决策被整合到同一个过程之中,使模型能够更高效地利用环境信息,同时减少中间误差的传播。

这篇论文的亮点主要体现在几个方面。首先,它将视频生成与路径规划统一在同一个框架中,打破了传统方法中“预测”和“决策”分离的结构,使世界模型真正参与到决策过程中。

其次,它通过在潜在空间中进行建模和推理,避免了直接生成高维视频带来的计算开销,同时提高了效率和稳定性。最后,这种方法在长时间预测和复杂驾驶场景中表现出更好的鲁棒性,因为模型是在一个结构化的世界表示中进行推理,而不是依赖逐帧生成。

总体来看,这篇论文的核心贡献是提出了一种将视频生成与自动驾驶规划统一起来的世界模型框架,使模型不仅能够“看见未来”,还能够基于未来进行决策,从而推动自动驾驶系统向更一体化、更高效的方向发展。

论文《ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment 》是由 AMAP CV Lab 研究团队提出。

论文研究的是机器人操作场景中的世界模型问题。现有视频世界模型虽然能够生成视觉上真实的结果,但在涉及物体交互时,往往会出现明显的物理错误,例如物体穿透、违背重力等现象。这是因为这些模型大多基于视觉数据训练,优化目标只关注生成概率,而忽略了真实物理规律 。

为了解决这一问题,论文提出了 ABot-PhysWorld 框架,其核心思路是构建一个具备物理对齐能力的交互式世界模型。该模型基于一个大规模扩散 Transformer 架构,在生成视频的同时引入物理约束,使生成的机器人操作过程既真实又符合物理规律。

同时,模型支持动作可控生成,可以根据输入的操作指令控制机器人与物体之间的交互过程。此外,论文还引入了物理感知训练机制和偏好优化策略,使模型在学习过程中更关注“物理合理性”而不仅是视觉质量 。

这篇论文的亮点主要体现在三个方面。首先,它显式引入物理约束,使世界模型在生成复杂交互场景时能够避免常见的物理错误,从而提升真实性。

其次,它实现了“动作可控的视频生成”,使模型不仅能预测世界,还能根据动作进行交互式模拟,更贴近机器人应用。最后,该方法在大规模模型基础上实现了视觉真实感与物理一致性的统一,使世界模型从单纯的生成工具,发展为可以用于机器人决策和模拟的基础模型 。

总体来看,这篇论文的核心贡献是提出了一种融合物理约束与动作控制的世界模型框架,使视频生成不仅具备视觉真实性,还具备物理合理性和交互能力,从而推动世界模型在机器人操作中的应用。

论文《SimScale: Learning to Drive via Real-World Simulation at Scale》是由中科院自动化所 MAIS 实验室、香港大学 OpenDriveLab 和小米 EV 团队共同提出。

论文关注的是自动驾驶中的一个关键问题,即真实驾驶数据中“关键危险场景”非常稀缺,导致模型虽然在常规场景中表现良好,但在极端或边界情况下容易失败。现有方法主要依赖收集更多真实数据或构建人工仿真环境,但前者成本高且难以覆盖长尾情况,后者又往往与真实世界存在差距。

为了解决这一问题,论文提出了 SimScale 框架,其核心思路是利用真实世界数据构建可扩展的仿真环境,并在此基础上自动生成大量新的驾驶场景。

具体来说,模型首先从真实数据中提取场景结构,然后在仿真环境中扩展出未见过的状态,并自动生成对应的驾驶轨迹作为监督信号,最终将真实数据与仿真数据进行联合训练,从而提升模型在复杂场景下的表现能力。

这篇论文的亮点在于,它通过“真实数据驱动仿真”的方式,有效缩小了仿真与现实之间的差距,同时能够大规模生成关键长尾场景数据,弥补真实数据中的不足。

此外,该方法具有很强的可扩展性,随着仿真数据规模增加,模型性能可以持续提升,而不依赖额外真实数据。最后,这种结合真实与仿真的训练方式,使模型在安全性和泛化能力方面都有明显增强。

总体来看,这篇论文的核心贡献是提出了一种基于真实数据构建仿真环境并进行规模化训练的方法,从而有效解决自动驾驶中长尾场景不足的问题,提升模型在复杂现实环境中的表现能力。

如何知道一个模型真的在「建模世界」?

论文《4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models》由中国科学技术大学、浙江大学和北京智源研究院等机构合作完成。

这项研究关注的是一个基础问题,即如何系统地评估 3D 和 4D 世界模型的能力。论文指出,现有评测方法通常只关注单一方面,例如视觉质量或简单一致性,缺乏统一标准,难以全面反映模型是否真正具备对空间和时间的建模能力。

为了解决这个问题,论文提出了一个统一评测框架 4DWorldBench。该框架从多个关键维度对模型进行评价,包括视觉感知质量、条件与 4D 对齐能力、物理真实感以及时空一致性 。

同时,它支持多种输入形式,例如从文本、图像或视频生成 3D 或 4D 场景,并通过统一机制将不同模态的信息映射到同一个评测空间中,从而实现不同模型之间的直接比较。此外,评测过程中还引入了大语言模型和多模态模型参与判断,使评价结果更加接近人类主观判断。

这篇论文的亮点在于,它建立了一套统一且系统的评测标准,使不同世界模型可以在同一框架下进行公平比较,同时通过多维度评价体系更全面地反映模型能力,而不仅仅局限于视觉效果。此外,引入大模型参与评估,使结果更加稳定,也更贴近人类判断。

总体来看,这项研究的核心贡献是为 3D 和 4D 世界模型提供了一套完整的评测体系,使研究重点从单纯的生成效果,进一步转向对世界建模能力的全面衡量。

论文《WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World 》是由 WorldBench Team 团队提出。

论文关注的是自动驾驶世界模型中的一个核心问题,即如何全面评估一个模型是否真正具备“理解和使用世界”的能力。现有方法通常只评估单一方面,例如视觉生成质量或简单一致性,缺乏统一标准来衡量模型在真实驾驶场景中的综合能力,包括是否符合物理规律以及是否能够支持决策。

为了解决这一问题,论文提出了 WorldLens 框架,用于对世界模型进行系统评估。该框架从多个维度进行衡量,包括生成能力、重建能力、动作跟随能力以及在下游任务中的表现,同时还结合人类偏好进行评价。论文还构建了一个大规模数据集,并引入自动评估模型,使评测过程能够规模化,同时保持一定的可解释性。

这篇论文的亮点在于,它提供了一套更全面的评测体系,使世界模型不再只从视觉效果进行评价,而是从生成、理解和行为能力多个角度进行统一衡量。

同时,通过结合人类标注与自动评估方法,使评测结果更加稳定且更接近真实使用需求。此外,该研究也揭示了当前模型在不同能力之间存在明显权衡,为后续研究提供了方向。

总体来看,这篇论文的核心贡献是建立了一套面向自动驾驶世界模型的统一评测框架,使模型评价从单一指标转向对整体世界建模能力的综合衡量。

论文《GeoWorld:Geometric World Models 》是由 ANU 和 MBZUAI 团队共同提出。论文主要研究的是“世界模型”在规划和预测中的一个核心问题。

现有很多方法虽然可以通过学习潜在空间来进行多步预测,但通常是在欧几里得空间中建模,这种方式无法很好表达状态之间的层级结构和复杂关系,同时在长时间预测时容易快速退化,导致结果不稳定。

为了解决这个问题,论文提出了一个新的框架 GeoWorld,其核心思路是将世界模型从传统的欧几里得空间建模,扩展到具有层级结构的几何空间中。

具体来说,它在潜在空间中构建一个“能量模型”,并引入双曲空间(hyperbolic space)来表示状态之间的关系,使模型能够更自然地表达层级结构。同时,在进行预测或规划时,不再简单地生成未来状态,而是通过在这个几何能量空间中沿“测地线(geodesic)”进行推理,从而实现更稳定的多步预测。

这篇论文的亮点主要体现在三个方面。首先,它将世界模型的表示从普通向量空间提升到具有几何结构的空间,使模型能够更好地刻画复杂关系和层级结构。

其次,它通过在能量空间中进行路径推理,而不是逐步生成状态,有效缓解了长时预测中误差累积的问题,使模型在长时间规划中更加稳定。

最后,这种方法为“基于世界模型的决策与规划”提供了一种新的思路,将几何建模与能量模型结合起来,在机器人和视觉规划任务中具有潜在应用价值。

总体来看,这篇论文的核心贡献是提出了一种基于几何空间的世界模型建模方法,使世界模型从简单的向量表示,发展为能够刻画结构与层级关系的几何表示,从而提升了长时预测和规划的能力。

论文《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》是由西湖大学研究团队提出。

论文关注的问题是:当前的视频扩散模型通常只在短视频数据上训练,当直接用于生成长视频时,会出现明显的质量下降,例如画面模糊、结构漂移以及时序不稳定。论文指出,这种问题的本质原因来自两个“分布外问题(O.O.D)”:一是帧间相对位置超出训练分布,二是上下文长度超过模型训练范围。

为了解决这一问题,论文提出了一个新的框架 FreeLOC,核心思路是在完全不需要重新训练模型的情况下,仅通过推理阶段进行修正。雷峰网

具体来说,该方法包含三个关键机制:首先,通过“视频相对位置重编码”方法,将长视频中的时间位置重新映射回模型熟悉的范围,从而解决位置分布外问题;

其次,通过“分层稀疏注意力机制”,在不同时间尺度上分配注意力,使模型既能保持局部细节,又能捕捉长程依赖;最后,引入“层自适应探测机制”,自动识别模型中哪些层对这些问题最敏感,并只在关键层进行修正,从而提高效率和效果。

这篇论文的亮点主要体现在三个方面。首先,它提出了一种完全无需训练的长视频生成增强方法,可以直接作用在已有模型上,成本极低。其次,它从根本上分析了长视频生成失败的原因,并针对“位置”和“上下文长度”两个关键问题提出针对性解决方案。

最后,通过“按层自适应修正”的方式,使方法既高效又精确,在实验中同时提升了视频的视觉质量和时序一致性,并达到了当前训练自由方法中的领先效果。

总体来看,这篇论文的核心贡献是提出了一种针对分布外问题的层级自适应修正框架,使短视频训练得到的模型也能够稳定生成高质量长视频,从而显著提升了视频生成模型的实用性。

论文《Neoverse: Unposed 4D World Modeling from Monocular Video》是由中国科学院自动化研究所和 CreateAI 研究团队提出。

论文主要解决的是 4D 世界建模中的一个核心问题,即现有方法通常依赖昂贵的多视角数据或者复杂的离线预处理流程,导致模型难以扩展到真实世界中大量随手拍摄的单目视频。 因此,这项工作提出的核心目标是:让 4D 世界模型能够直接利用“野外单目视频”进行训练,从而实现大规模扩展和更强泛化能力。

为了解决这一问题,论文提出了 NeoVerse 框架,其核心思路是构建一个可扩展的重建 + 生成一体化模型。具体来说,模型首先通过一种“无位姿(pose-free)的前馈式 4D 重建方法”,直接从单目视频中恢复 4D 高斯表示,然后利用这些几何信息作为条件,引导视频生成模型产生新视角视频。

同时,论文设计了“在线退化模拟机制”,在训练过程中模拟不同视角下的低质量渲染,从而让生成模型学会在复杂条件下恢复高质量视频。这一整套流程不依赖复杂预处理,可以直接在大规模单目视频数据上训练。

这篇论文的亮点主要体现在三个方面。首先,它突破了对多视角数据和离线预处理的依赖,使 4D 世界模型可以利用大规模真实单目视频,从而显著提升可扩展性。

其次,它提出了“前馈式 4D 重建 + 生成联合训练”的框架,使模型既能恢复几何结构,又能生成新视角视频,实现统一建模。最后,该方法具有较强的通用性,不仅可以用于 4D 重建和视频生成,还支持视频编辑、稳定、超分辨率等多种下游任务,并在多个基准上达到较好的效果。

总体来看,这篇论文的核心贡献是提出了一种面向真实世界单目视频的可扩展 4D 世界模型框架,使 4D 建模从依赖昂贵数据,转向可以利用大规模真实视频数据,从而在泛化能力和实用性上都有明显提升。

]]> 人工智能 https://www.leiphone.com/category/ai/mZ0DTeI4cHjy1OFn.html#comments Thu, 30 Apr 2026 10:28:00 +0800 RAM——复杂场景下多人3D人体运动重建新框架 | CVPR 2026 https://www.leiphone.com/category/ai/lnKD1syPWRAO933Q.html   一、研究背景  

从视频中准确理解并重建人体3D运动是计算机视觉的重要研究方向,在体育赛事分析、VR/AR、人机交互以及医疗康复等领域具有广泛应用价值。然而,在真实复杂场景中,该任务仍面临三大严峻挑战:

首先是身份关联不稳定——多人交互时,频繁的遮挡和快速运动容易导致ID Switch,影响后续重建的一致性;其次是运动轨迹中断——视角变化和极端遮挡会造成目标跟踪丢失;第三是重建结果不连续——传统逐帧处理方式难以维持时间维度上的三维结构稳定性。

传统方法通常将目标跟踪和三维重建作为两个独立的流水线模块处理,无法从整体视角利用跨帧的时序信息。RAM(Recover Any 3D Human Motion)从根本上打破了这一范式,提出统一框架将运动感知跟踪、时序建模与动作预测有机融合,实现从逐帧处理向时序建模的范式转变。

 二、核心方法  

RAM 框架由四个关键模块构成,各司其职、协同工作:

SegFollow 模块(稳定跟踪):引入基于卡尔曼滤波的运动建模机制,将运动一致性信息融入目标关联过程。不再过度依赖外观特征,即使在严重遮挡或外观发生剧变的情况下,依然能维持稳定的身份跟踪,从根本上降低 ID Switch 发生率。

T-HMR 模块(时序三维重建):基于时间记忆机制,从邻近帧中筛选关键特征,利用 Transformer 结构进行跨时间信息融合。当当前帧信息不完整或存在噪声时,借助历史上下文生成平滑且一致的3D人体结构,解决重建不连续问题。

动作预测模块:基于历史运动序列对人体动态进行建模,预测未来的姿态。专门针对目标被完全遮挡的极端情况,在当前没有任何观测信息时,靠预测结果维持运动序列的连续性。

自适应融合模块:对当前帧重建结果与预测结果进行自适应加权——遮挡严重时更依赖预测,观测清晰时更依赖重建,根据当前信息可靠性动态调整权重,实现最优融合。

 三、亮点总结  

亮点一:统一框架打破流水线壁垒RAM 首次将目标跟踪、时序三维重建与动作预测整合到统一框架内,从整体视角充分利用跨帧时序信息,彻底改变了传统串行流水线的局限,代表了多人3D运动理解的范式转变。

亮点二:强大的零样本泛化能力在 PoseTrack 等国际主流复杂场景数据集上,RAM 在无需针对特定目标数据集进行额外训练(Zero-shot)的条件下,依然在身份一致性、跟踪稳定性以及三维重建精度上显著超越现有方法,展现了极高的实际应用潜力。

亮点三:时序建模接近人类认知通过引入时间记忆与动作预测机制,使模型更接近人类真实世界中的动态认知过程——人们即使暂时看不到一个运动中的人,也能凭借记忆预判其位置与姿态。这一仿人认知设计不仅提升了技术性能,也为视频理解领域提供了重要的方法论启示。


──────────────────────────────────────────

上述内容包含AI辅助生成,更详细信息参见两个链接

链接:https://arxiv.org/abs/2603.19929

解读来源:https://cloud.tencent.com/developer/article/2658222





【封面图片来源:网站名开发者社区,所有者:NLPIR Lab】

]]> 人工智能 https://www.leiphone.com/category/ai/lnKD1syPWRAO933Q.html#comments Fri, 24 Apr 2026 14:05:00 +0800 中山大学郭裕兰团队:数据充足却训练失败,多智能体到底卡在哪丨CVPR 2026 https://www.leiphone.com/category/ai/ejIPE1k0ZMth5UXQ.html 很多人其实已经在不知不觉中接触到了多智能体协作带来的变化。

电商大促时,仓库里往往不是一台机器人在工作,而是一整组机器人同时分拣、运输、避让和交接。自动驾驶真正困难的地方,也不只是让一辆车学会开,而是让很多辆车在同一条路上彼此配合。现实中的很多复杂任务,本质上都不是单个智能体可以独立完成的,智能系统也是一样。

但现实世界并不会给这些系统太多试错机会。仓库机器人撞一次货架,工业机械臂装错一次零件,代价都是真实的。也正因为如此,越来越多研究开始转向离线强化学习,也就是先利用已有数据训练策略,而不是依赖实时试错。

可一旦从单智能体走向多智能体,难度会迅速上升,因为系统不仅要学会做决策,还要在反馈有限的条件下学会协作。

这正是当前行业里的一个现实瓶颈。很多方法在实验环境里效果不错,但到了离线多智能体场景中,往往很快暴露出问题。

一方面,真实任务里的奖励通常非常稀疏,模型很难知道自己到底哪一步做对了。另一方面,多智能体协作还会带来责任分配问题,也就是最后成功了,却很难判断到底是哪一个智能体起了关键作用。结果就是,系统明明有大量历史数据,却依然学不会稳定协作,更谈不上面对新任务时的泛化能力。

在这样的背景下,来自中山大学的郭裕兰团队提出了 MangoBench,并在研究《MangoBench A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》中,尝试重新回答一个关键问题,也就是当多个智能体不能随便试错时,怎样才能真正学会协作。

研究团队没有继续依赖传统奖励驱动,而是把问题改写成目标驱动,让模型围绕应该到达什么状态去学习,从而为离线多智能体强化学习提供了一条更清晰的研究路径。

论文地址:https://wendyeewang.github.io/MangoBench/

性能分化的关键拐点

在难度适中的导航任务里,不同方法的表现差距已经很明显了。中山大学团队提出的 IHIQL 的成功率能达到 80% 到 95%,说明它大多数时候都能把任务完成好。相比之下,ICRL 只有 40% 到 60%,GCMBC 只有 20% 到 40%,而 GCOMIGA 和 GCOMAR 基本接近 0%,几乎等于没学会。

换句话说,同样是面对离线数据,有的方法已经能比较稳定地找到路,有的方法却连基本方向都抓不住。这说明在奖励很少、反馈很弱的情况下,传统的离线多智能体方法其实很容易失灵,而分层强化学习方法更容易学出效果。

当任务再变难一点,这种差距会被进一步放大。所有方法的表现都会下降,但下降的程度并不一样。IHIQL 虽然也会掉到 30% 到 40%,但至少还保留了一部分完成任务的能力。

ICRL 和 GCMBC 会掉到 10% 到 20% 左右,其他方法则几乎完全不行了。可以把它理解成,一开始大家都在考试,题目简单的时候还能看出谁强谁弱,题目一难,很多方法就直接交白卷了,只有少数方法还能继续答题。IHIQL 的优势,正体现在它遇到更复杂的环境时没有一下子垮掉。

研究人员还专门看了另一件事,也就是把一个任务交给多个智能体时,具体怎么分工会不会影响结果。比如有的设置是每个智能体负责 4 个部分,有的是每个智能体只负责 2 个部分。

结果发现,不管是 2×4 还是 4×2,IHIQL 在中等难度任务里都能稳定在约 90% 左右。这个结果可以理解成,它不是只会适应某一种固定分工,而是更像抓住了任务本身该怎么完成,所以换一种分工方式,它照样能做得不错。

到了机械臂任务,这种差别就更容易看出来了。在同步协作的抬栏杆任务里,IHIQL 的成功率在 80% 以上,GCMBC 大约 60%,ICRL 大约 50%,模仿学习方法大约 40%。如果把这些方法想成几组不同水平的工人,那么 IHIQL 这一组不但完成任务的概率更高,而且训练时间只有模仿学习方法的约 5%。

这说明它不只是做得更好,而且学得更快,效率也更高。通俗一点说,就是它不但更会做事,而且更快进入状态。

到了更复杂的异步协作任务,情况就不一样了,原本领先的方法不一定还能继续领先。以放置食物这个任务为例,这类任务不是大家一起同时发力,而是要一个智能体先完成前面的动作,另一个再接着往下做,所以更考验先后配合。

在这种情况下,ICRL 的表现最好,成功率大约在 30% 到 40% 之间,明显高于 IHIQL 和 GCMBC,模仿学习方法甚至不到 10%。这说明当任务强调步骤之间的衔接时,对比学习方法更容易学到这种顺序关系。更重要的是,它不仅做得更好,训练时间还比模仿学习少了约 93%,也就是说,它不只是更会学,而且学得还更快。

多目标和单目标的对比,则说明了另一件很容易被忽视的事,那就是测试方式本身也会影响我们对模型的判断。如果只用一个目标去测试,同一个任务里,IHIQL 是 78%,GCMBC 是 22%,ICRL 是 37%。但换成多目标评估后,它们分别提升到 82%、47% 和 56%。

这意味着很多方法其实并没有我们原来想的那么差,只是单目标测试把它们的能力看窄了。换句话说,这些方法学到的并不只是某一个固定动作,而是面对不同目标时,仍然能够做出调整的能力,也就是更接近真正的泛化。

在训练方式的对比里,研究人员发现,并不是拿到更多全局信息,效果就一定更好。分布式方法 IHIQL 在中等任务里成功率大约是 95%,任务规模变大后还有大约 85%,到了超大规模任务也还能保持在 50% 左右。

相比之下,集中训练方法 HIQL-CTDE 在中等任务里还有大约 70%,但任务一变复杂,很快就掉到 44%,再往上甚至只剩下 1%,几乎等于学不动了。

这个结果可以理解成,分布式方法更像是把问题拆开来,各个智能体先管好自己那一部分,所以任务变难时还能稳住。集中训练方法看起来掌握的信息更多,但也正因为要同时处理太多全局信息,任务一复杂就容易顾不过来,最后训练变得越来越不稳定。

也就是说,在多智能体任务里,信息更多不一定更占优势,关键还是系统能不能把复杂问题处理得足够清楚。

把所有实验结果放在一起看,其实能得出几个很清楚的判断。首先,很多方法之所以一到复杂任务就失效,最根本的原因不是模型太弱,而是奖励信号太少。

因为在稀疏奖励条件下,系统大部分时候都得不到明确反馈,很难知道自己到底哪一步做对了,所以训练很容易陷入混乱。一旦把奖励变得更密集,性能就会明显恢复,这说明问题的关键不在模型本身,而在学习信号不够。

其次,目前表现最稳的还是分层方法。以 IHIQL 为代表的方法之所以更有效,是因为它不是让模型一次性去解决整个复杂任务,而是把大任务拆成多个更小的步骤来学。

这样做的好处是,模型更容易在中间过程里得到反馈,也更不容易在任务变复杂时一下子崩掉。所以从实验结果来看,分层策略更像是一种让系统先学会一步一步完成任务的方法,而不是一上来就要求它掌握全部。

最后,这项研究还说明了多智能体系统最难的地方,其实不只是学会做动作,而是学会彼此配合。在简单任务里,多智能体有时还能比单智能体做得更好,因为大家分工之后效率更高。

但一旦任务变复杂,需要更精细的协作和衔接时,问题就会立刻暴露出来。也就是说,真正卡住多智能体系统的,不只是学习能力,而是协同能力,这也是为什么协作会成为整个系统进一步提升表现的最大瓶颈。

从奖励驱动到目标驱动

在实验设计上,研究团队先做了一件很关键的事,就是把原本的离线数据重新整理了一遍。原始数据里只有状态和动作,记录的是系统当时看到了什么、做了什么。

研究人员在这个基础上又加进了目标和奖励,也就是把原来的数据改造成了状态、动作、目标、奖励这样的形式。具体来说,他们会从已有轨迹里随机挑出一个状态当作目标,再去判断当前行为有没有朝这个目标靠近,然后自动生成对应的奖励。

这样一来,同一批历史数据就不再只能拿来学一个任务,而是可以围绕不同目标反复使用,相当于把原有数据的价值放大了。

这样做的意义在于,它把原来的学习方式换了一种思路。传统强化学习更像是让模型一边做一边等反馈,问题是这种反馈往往很少,很多时候模型根本不知道自己到底做得对不对。

加入目标之后,情况就不一样了。模型不再只是被动等奖励,而是会一直围绕一个明确目标去行动,判断自己是不是在一步步接近它。换句话说,原本那种模糊又稀少的反馈,被变成了更直接、更容易理解的学习信号,所以模型更容易学出有效策略。

为了让结果更可靠,研究团队在实验设置上也做得比较严谨。运动任务一共训练了 100 万步,测试时还会换 5 个不同目标,并用 5 个随机种子反复验证,也就是不只看一次结果,而是看它在不同条件下是不是都能稳定表现。

操作任务也一样,训练步数分别是 1.5 万和 3.88 万,测试时还用了 100 个随机种子。这样做的目的很明确,就是尽量避免某一次训练碰巧表现好,确保最后看到的结果是稳定的,而不是偶然的。

在任务安排上,研究人员也不是随便选几个场景,而是故意把难度一点点往上加。运动任务从较简单的迷宫开始,逐渐增加到更复杂的迷宫,最后再加入随机传送这样的高难度设置。

操作任务则从需要同时配合的同步任务,发展到需要讲究先后顺序的异步任务。这样设计,其实是想更系统地观察模型在不同复杂度下的表现,不只是看它能不能完成任务,更想看它在任务越来越难时,是否还具备泛化能力、长期规划能力和协作能力。雷峰网

换句话说,研究团队想测试的不是模型会不会做一道题,而是题目一旦变难,它还能不能继续做下去。

研究人员还专门分析了,为什么 CTDE 这种看上去信息更多的方法,最后反而表现不好。按直觉来说,既然它在训练时能看到更多全局信息,效果似乎应该更好,但问题恰恰也出在这里。

因为它看到的东西太多了,全局状态本质上就是把所有智能体的状态都拼在一起,这会让问题一下子变得非常大、非常复杂,模型需要同时处理的内容也会迅速增加。

除此之外,CTDE 在训练时和执行时其实并不是完全一致的。训练阶段,模型会利用全局信息来学习;但真正做决策时,每个智能体又只能根据自己的局部信息行动。这样一来,就会出现一种情况:训练时学到的东西,到了实际执行时不一定能顺利用上,这会让优化过程变得更困难。

还有一个更隐蔽的问题在于目标本身。CTDE 一方面要处理整体任务的全局目标,另一方面又要让每个智能体根据自己的局部目标去行动。这样就容易出现两套目标之间对不上的情况,也就是模型的一部分在学整体方向,另一部分却在学局部细节,最后很难配合到一起。

所以,CTDE 的问题并不是信息不够,而是信息太多、结构太复杂,最后让训练变得不稳定。表面上看,它像是在帮模型看到更完整的全局;但实际上,正是这种额外的复杂性,让它在任务一变难时更容易失效。

从方法到问题本质

从实验意义来看,研究团队最重要的贡献,不只是提出了一套新方法,而是更清楚地揭示了 Offline MARL 为什么一直很难真正做好。

研究结果说明,问题的核心并不只是模型能力强不强,而是在训练过程中存在两个更根本的障碍。第一个障碍是学习信号太弱,因为 reward 很稀疏,模型在大多数时候得不到明确反馈,Q- function 很难稳定收敛,所以很多方法即使训练很久,效果仍然很差。

第二个障碍是责任分配问题,也就是在多智能体协作中,很难判断到底是哪一个 agent 对最后的成功起了关键作用。一旦这个贡献关系分不清,梯度更新就容易出错,最后就会出现协作失败。研究的价值就在于,它把多智能体离线强化学习最深层的困难点明确指出来了。

研究团队还说明了 goal-conditioned 真正有效的原因。它的作用并不只是给模型多加一个目标输入,而是改变了整个学习方式。原来模型主要依赖 reward 来判断行为好坏,这种信号很少,也不稳定。

加入目标之后,每个 state 都能和某个 goal 联系起来,学习信号就明显变多了,模型也更容易知道自己应该往什么方向调整。

这样一来,强化学习就不再只是盲目地追逐奖励,而更像是在学习如何从当前位置到达目标位置。这种形式比单纯依赖 reward 更稳定,也更容易训练。

更重要的是,同一个模型可以面对不同目标完成不同任务,这说明模型学到的不是死记硬背的固定动作,而是具有一定泛化能力的行为策略。

研究人员进一步说明了为什么分层方法会更有效。原因在于,分层方法同时解决了两个难题。一方面,它通过设置中间目标缓解了稀疏奖励问题,让模型在任务还没有最终完成之前,就已经能得到阶段性的反馈。

另一方面,它把原本很长、很复杂的任务拆成多个更短、更容易处理的小任务,从而减轻了长时间依赖带来的学习难度。换句话说,分层方法之所以有效,本质上是因为它把一个很难直接学会的大问题,拆成了多个更容易逐步解决的小问题。雷峰网

这一点对于多智能体任务尤其重要,因为多智能体系统本来就比单智能体更难协调,如果没有这种结构化拆分,训练会更加不稳定。

这项研究对普通人的影响也很实际。现实生活中很多场景并不允许系统反复试错,比如自动驾驶、仓储物流、工厂机械臂、医院辅助机器人等。这些系统一旦出错,代价往往很高,所以很多时候只能依赖已经收集好的历史数据进行训练,也就是离线学习。

研究团队所做的工作,本质上是在探索怎样让多个智能体在不能随便试错的情况下,依然学会稳定协作。这个方向如果继续发展,未来普通人可能会直接受益于更安全的自动驾驶系统、更高效的物流配送机器人、更稳定的工业自动化设备,以及更可靠的医疗和家庭辅助机器人。

MangoBench 背后的科研工作者

汪怡,中山大学在读一年级博士生,主要研究方向为三维视觉和强化学习,师从郭裕兰教授,于深圳河套学院实习,完成此论文时期在中山大学读本科。在 CVPR 等 CCF A 类会议发表多篇论文,参与中国图学学会“奋发图强”博士生 workshop,参与 China3DV 墙报展示,曾获中山大学研究生校长奖学金等。

钟柠泽,完成此论文时期在中山大学读本科,与郭裕兰教授合作,主要研究方向为机器人,三维视觉和强化学习。在 CVPR/ICLR/ACM MM 等 CCF A 类会议等发表论文,CVPR/NeurIPS/ECCV 审稿人,论文在China3DV/ChinaGraph 大会等展示,现在美国宾夕法尼亚大学 GRASP Lab 读研究生,与 Vijay Kumar 院长合作。

符智恒,西澳大学博士,香港理工大学博士后,主要研究方向为三维重建与生成。发表论文共 20 余篇(包括CVPR、ICCV、TIP、ECCV、IJCAI等),英文著作一部 Point Cloud Intelligence 。

王龙光,中山大学博士后,主要研究方向为底层视觉和三维视觉。以第一作者身份发表 CCF A 类论文共 11 篇,谷歌学术总引用数为 7100 余次。入选中国科协青年人才托举工程,连续三年入选全球前 2% 顶尖科学家榜单;主持国家及省部级项目 9 项。

张晔,中山大学副研究员,主要研究方向为空间智能与三维视觉。发表学术论文 30 余篇,主持国家级和省部级项目3项,曾担任首届中国空间智能大会本地主席。

郭裕兰,中山大学教授,主要研究空间智能与三维视觉。主持国家自然科学基金联合重点项目等 10 余项,发表学术论文 200 余篇,谷歌学术引用 2 万余次,入选Clarivate全球高被引科学家。担任中国图象图形学学会三维视觉专委会副主任,IEEE TIP 高级领域编辑(SAE)。曾担任首届中国空间智能大会主席,历届中国三维视觉大会组委会主席。

]]> 人工智能 https://www.leiphone.com/category/ai/ejIPE1k0ZMth5UXQ.html#comments Wed, 22 Apr 2026 15:14:00 +0800 上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026 https://www.leiphone.com/category/ai/T1QJcttY3cV0JjVU.html 很多人第一次觉得图像生成模型已经足够强,往往是在它能快速画出一张看上去不错的图的时候。但真正开始频繁使用之后,又会慢慢发现另一面。

比如做一张活动主视觉,前几次生成里主体、色调、氛围都对了,可一放大细节就会发现手部、材质、边缘关系经不起看。再比如给一篇文章配封面,模型明明理解了主题,却总在最后呈现时把重点元素放错位置,或者让画面风格和语义之间出现轻微但难以忽视的偏差。

这正是当前生成式 AI 进入大规模应用之后,行业越来越在意的一类问题。今天的 diffusion 模型已经不缺生成能力,缺的是更稳定、更可控、也更符合真实使用过程的生成机制。

过去几年,行业主要依靠更大的模型、更多的数据和更强的算力推动效果上升,但当模型能力不断逼近高位之后,很多问题开始不再表现为能不能生成,而是能不能稳定地生成对。换句话说,竞争的重点正在从模型会不会画,转向模型能不能在每一步都朝着正确方向画。

这个变化非常关键,因为它意味着生成模型的发展正在从规模驱动走向机制驱动。

在这个背景下,来自上海交通大学与 vivo BlueImage Lab 的研究团队提出了《C²FG Control Classifier Free Guidance via Score Discrepancy Analysis》。研究切中的恰恰是行业正在遇到的那个深层矛盾。

过去广泛使用的 guidance 方式,本质上默认生成过程中的条件引导强度可以保持固定,但真实的 diffusion 过程并不是静止的,模型在不同阶段对条件信息的依赖程度并不一样。研究人员抓住的,正是这种长期存在却常被经验调参掩盖的问题。

从这个意义上看,C²FG 代表的不只是一次技术修补,而是一种研究视角的变化。它提醒行业,下一阶段真正重要的问题,可能不再只是把模型做得更大,而是更精确地理解生成过程内部到底发生了什么,并据此重新设计控制方式。

论文地址:https://arxiv.org/pdf/2603.08155

C²FG 更改进了生成分布本身

在实验结果方面,研究团队围绕 ImageNet 这一核心任务首先验证了方法的整体效果。对比可以发现,在常规的 DiT 模型上,引入 C²FG  之后最直接的变化是生成结果明显更接近真实分布,这一点体现在 FID 从 2.29 下降到 2.07,同时 IS 从 276.8 提升到 291.5,而 Precision 基本保持在 0.83,Recall 从 0.57 上升到 0.59。

这组变化共同说明,研究人员的方法并没有通过牺牲质量来换取多样性,而是在保持原有精度的情况下,同时让生成图像更清晰、类别更明确,并且覆盖到更广的真实分布区域。相比之下,如果只看单一指标,很难看出这种“同时提升多个维度”的效果,而这里的数据组合恰好体现了这一点。

更关键的是,这种改进在强模型上依然成立。以 SiT-XL/2 为例,本身已经处在较高性能水平,固定 guidance 时 FID 为 1.80,而 C²FG  可以把它进一步压到 1.51,同时 IS 从 284.0 提升到 315.0。虽然 Precision 从 0.81 略微变为 0.80,但 Recall 从 0.61 提升到 0.62,这说明整体生成能力仍然是增强的,而不是简单的权衡变化。

换句话说,在模型已经很强的情况下,仍然能够在“更真实”和“更丰富”之间取得更好的平衡,这一点本身就说明问题不在模型能力,而在 guidance 机制。

当实验推进到更接近性能上限的设置时,这种趋势依然存在。即使原方法已经达到 FID 1.42 这样的水平,引入 C²FG  后仍然可以进一步降低到 1.41,这种微小但稳定的改进说明,随着模型不断逼近极限,误差来源越来越集中在机制层面,而不是网络本身。

类似的现象也出现在更复杂的高分辨率任务中,在 512 × 512 设置下,原方法的 FID 为 6.81,而 C²FG  可以降低到 6.54,同时 IS 从 229.5 提升到 280.9,这表明在更困难的生成条件下,方法依然能够改善图像结构和整体清晰度,而不是只在简单场景中有效。

研究团队还将验证扩展到不同类型的任务中。在文本生成图像任务中,虽然整体提升幅度不如 ImageNet 明显,但趋势保持一致,例如 U-ViT 的 FID 从 5.37 下降到 5.28,Stable Diffusion 的 CLIP 分数从 31.8 提升到 31.9,这说明这种方法不仅适用于类别条件,还对文本条件同样有效,只是在更复杂语义约束下改进幅度会相对温和。

进一步在像素空间任务中,原模型已经可以达到 FID 1.58,在强 baseline 的帮助下下降到 1.04,而加入 C²FG  后仍然可以继续降低到 1.03,这种在接近极限区域仍然存在的改进,直接说明误差并不是来自模型表达能力,而是来自 guidance 的使用方式。雷峰网

从更贴近实际应用的角度来看,研究人员还分析了推理步数减少时的表现。在 50 步和 20 步这两种设置中,FID 都出现了稳定下降,并且在 20 步这种更极端的低计算预算下,提升反而更加明显。这意味着,当每一步的决策变得更加关键时,动态 guidance 的优势会被放大。

最后,通过一个简单的二维 toy 实验,研究团队展示了更直观的现象,传统方法会产生明显偏离目标分布的异常样本,而 C²FG  基本不会出现这类 outliers,生成分布也更贴近真实分布,这进一步说明改进不仅体现在视觉效果上,更体现在整体概率分布的正确性上。

基于逐层验证的实验设计框架

在实验经过的安排上,研究团队之所以设计这么多层次的实验,并不只是为了说明 C²FG  比原来的方法更好,而是希望进一步回答一个更核心的问题,也就是这种方法为什么会更好。

围绕这个目标,研究人员搭建了一个逐层推进的验证体系。第一层是机制验证,重点去测条件分支和无条件分支之间的差异,结果发现这种差异并不是固定不变的,而是会随着时间不断变化。

第二层是分布验证,也就是通过 toy 实验去观察生成结果是否更接近真实分布,从而判断改进究竟发生在视觉层面,还是已经深入到分布层面。

第三层是性能验证,研究团队把方法放到 ImageNet 这种核心任务中,直接检查各种指标能否得到提升。第四层是泛化验证,在这一层里,研究人员主动更换模型、更换任务,也更换采样方式,目的就是确认这种改进并不依赖某一种特定结构或某一种实验条件。

第五层则是极限验证,专门去测试强模型和少步数这两类更苛刻的情境,因为如果方法在这些设置下仍然有效,就更能说明它反映的是一种稳定规律,而不是偶然现象。

这样一层一层推进之后,整个实验就形成了一条完整的证据链,最后支持的结论也就不再只是“效果更好”,而是“这种改进背后确实存在可以重复验证的机制”。

在这一系列实验中,最关键的观察集中在 diffusion 过程不同阶段的变化上。研究人员发现,在早期阶段,条件信息和无条件信息之间几乎是接近的,二者差异很小,这意味着如果在这个时候仍然使用固定而且较强的 guidance,就容易出现引导过强的问题。

相反,到了后期阶段,这种差异会迅速增大,也就是说模型越来越需要条件信息去把生成过程拉回到目标分布附近,如果 guidance 依旧保持固定,就会显得不够,无法提供足够的约束。

正是在这个意义上,研究团队提出的 C²FG  才显得重要,因为它的作用不是简单地把 guidance 变大或者变小,而是自动匹配这种随时间变化的差异,让前期不过强、后期不不足,从而使整个生成过程更符合真实的 diffusion 动态。

对 diffusion 本质的修正

从实验意义来看,这项研究的重要性,不只是把几个指标继续提高了一点,而是说明研究团队发现了 diffusion 生成模型里一个更本质的问题。

过去很多方法默认 guidance 在整个生成过程中都可以保持固定,但实验结果表明,问题并不只是参数怎么调,而是这种固定做法本身就不符合生成过程的实际变化。

因为研究人员在不同任务、不同模型和不同设置下都观察到了稳定提升,所以可以说明,C²FG  修正的不是某一种局部技巧,而是条件信息参与生成时普遍存在的偏差。这也意味着,研究真正推进的,不只是一个新方法,而是一种对生成机制更准确的理解。

这种意义在强模型上的表现尤其有说服力。像从 1.80 降到 1.51 这样的提升,如果放在普通模型上已经很明显,而出现在本来就接近极限的强模型上,就更能说明剩余误差主要不是模型能力不够,而是 guidance 的作用方式还不够合理。

换句话说,研究团队证明了,未来提升生成模型的效果,并不一定只能依赖更大的模型、更多的数据或更长的训练时间,也可以来自对生成过程中引导机制的重新设计。

少步数实验的意义则更贴近日常应用。研究人员发现,步数越少,C²FG  的优势越明显,这说明在计算资源有限的时候,固定 guidance 带来的误差会被放大,而动态 guidance 更能减少这种问题。

对普通人来说,这种改进最终可能体现在更直接的使用体验上,比如生成速度更快,等待时间更短,对设备性能的要求更低,同时生成结果也更稳定,不容易出现模糊、跑偏或者细节崩坏。

toy 实验进一步说明,C²FG  改善的也不只是图像表面的清晰度,而是让生成结果在整体分布上更接近真实目标,这意味着普通用户在使用生成工具时,更容易一次得到自然、合理、符合需求的结果,而不必反复修改和重试。雷峰网

再往深一点看,这项研究的价值还在于,它让生成模型的发展方向变得更清楚了。研究团队最核心的贡献,不只是把 guidance 从常数改成时间函数,而是用系统实验说明,生成过程中的条件引导本来就应该随着时间变化。

这个结论不仅能帮助后续研究找到更合理的设计思路,也有机会让现有生成系统以比较低的成本得到升级。最后落实到普通人身上,就是未来的图像生成工具有可能变得更快、更稳,也更容易普及。

]]> 人工智能 https://www.leiphone.com/category/ai/T1QJcttY3cV0JjVU.html#comments Wed, 22 Apr 2026 15:04:00 +0800 清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨CVPR 2026 https://www.leiphone.com/category/ai/sfen7fK47QGQvIEo.html 很多人在使用文生图工具时都会遇到类似的情况,输入一段很清晰的描述,希望画面中人物站在左边、动物在右边,或者希望海报上出现一段完整可读的文字,但生成结果却常常让人失望。

要么位置关系混乱,要么文字变形,要么整体画面看起来不自然。继续调整参数,有时结果会更接近描述,但画面质量却明显下降,颜色变得奇怪,结构开始扭曲。反复尝试之后,往往需要生成十几张甚至几十张图,才能勉强挑出一张可用的。

这种既想让模型听懂指令,又不希望画面被破坏的矛盾体验,已经成为很多用户在实际使用生成模型时的共同感受。

随着生成式人工智能逐渐进入设计、电商、内容创作等真实场景,这种问题变得更加突出。用户不再只是追求一张看起来不错的图,而是希望结果稳定、结构正确、细节可靠,可以直接用于实际工作。

然而现有方法在可控性和稳定性之间始终存在明显冲突,模型越是强调语义对齐,就越容易牺牲视觉质量,这种内在限制逐渐成为生成模型走向更广泛应用的一道门槛。

在这样的背景下,清华大学段岳圻团队提出了《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》这一研究工作,从更底层的角度重新审视这一问题。

研究不再把 CFG 当作简单的参数调节手段,而是将整个生成过程看作一个动态系统,把语义偏差理解为需要被控制的误差,并引入控制理论来重新设计 guidance 机制。这种思路的变化,使得生成过程不再依赖反复试错,而是可以通过更稳定的方式逐步收敛到符合语义约束的结果。

这种改进在实际场景中的意义也很直观。当需要生成具有明确空间关系的画面时,模型能够更稳定地保持结构一致;当画面中包含文字时,内容更容易保持清晰和正确;在复杂场景中,多对象之间的关系也更不容易出现错乱。

用户不再需要通过大量尝试去碰运气,而更有可能在较少次数内得到符合预期的结果。这样的变化,正体现出生成模型从偶尔成功走向稳定可靠的关键一步,也让这项研究在当前发展阶段显得尤为重要。

论文地址:https://arxiv.org/pdf/2603.03281

从高 scale 稳定性到复杂 prompt 表现

在实验结果方面,研究人员首先关心的是,相比标准 CFG(Classifier-Free Guidance),性能提升是否全面且稳定。结论是肯定的,而且提升并不是集中在某一个指标上,而是体现在多个维度同时改善。

比如在图像质量指标 FID(Fréchet Inception Distance) 上,SMC-CFG 比标准 CFG 进一步下降了一小截,说明生成结果更接近真实图像分布。在语义对齐指标 CLIP 上,提升幅度虽然不算特别大,但表现很稳定,基本能够持续领先其他方法,这说明这种改进并不是靠某类样本上的偶然优势,而是真正增强了模型对文本语义的理解能力。

在人类偏好相关指标上,像 ImageReward、HPS、PickScore 等提升更明显,而且很多时候都处在所有方法里的最高水平。真正重要的是,SMC-CFG 不是只把某一个指标做高,而是在图像质量、语义对齐和主观偏好这些通常很难兼顾的方向上一起变好。

从跨模型的一致性来看,研究使用了 3 种不同规模的文生图模型,分别是中等规模的 SD3.5、较大规模的 Flux,以及超大规模的 Qwen-Image。实验中有一个很明显的现象,就是模型规模越大,SMC-CFG 的优势越清楚。

在较小模型上,这种优势更多体现为略优,而在更大模型上,它在多个指标上能够持续拉开差距。这说明,SMC-CFG 解决的并不只是一个局部调参问题,而更像是在处理模型规模增大后更容易出现的不稳定性问题。

研究还把它与 CFG-Zero* 和 Rectified-CFG++ 这些已经改进过的方法做了比较,结果显示,SMC-CFG 依然能够继续取得提升,而且这种优势不是某个指标上的局部突破,而更接近整体性的领先,这也说明它不是简单技巧,而是机制层面的改进。

高 guidance scale 下的表现,是整项研究最关键的结果之一。传统 CFG 的典型问题是,guidance scale 增大后,语义对齐通常会更强,但图像质量往往会明显下降,也就是模型越努力贴近文本,越容易把画面做坏。

实验显示,标准 CFG 随着 scale 提升,图像劣化会越来越明显,而 SMC-CFG 在同样条件下仍然能够继续增强语义信息,同时把图像质量维持在相对稳定的状态。这意味着它在一定程度上打破了语义准确性和图像质量之间那种经典的此消彼长关系。

与此同时,在复杂 prompt 下,传统方法容易出现空间关系错位、结构混乱、文字模糊或错误等问题,而 SMC-CFG 在空间关系、细节稳定性和文字清晰度上都更好,这说明它不仅分数更高,也确实提升了模型对复杂结构和关系的理解能力。

研究团队还做了消融实验,分析两个关键参数的作用。其中,λ 控制收敛方向,k 控制纠正力度。实验发现,λ 过小或过大都会让系统偏离更理想的稳定轨道,而 k 过小会让收敛变慢,语义表现偏弱,k 过大又会引发震荡,让画面显得不自然。

综合来看,最佳状态对应的是中等 λ 加上适中的 k,在这种组合下,系统能够同时实现稳定、快速和精准。更深一层地说,这部分结果说明 SMC-CFG 的优势不是偶然调参得到的,而是符合控制系统里很典型的规律,也就是稳定性和响应速度之间需要找到平衡。雷峰网

并非简单跑分,而是一种新的控制逻辑

在实验经过方面,研究人员并不是简单进行指标对比,而是围绕一个明确的核心假设展开,也就是 CFG 的问题本质上来源于线性控制方式本身,因此需要通过新的控制机制来验证是否能够系统性改进这一问题。

基于这一前提,整个实验设计围绕三个关键方向推进。首先是稳定性验证,研究人员通过在高 guidance scale 条件下进行测试,因为这一设置会放大 CFG 的不稳定问题,如果方法在这种情况下仍然保持稳定,就能够说明控制机制本身更加鲁棒。

其次是准确性验证,通过引入语义指标并结合复杂 prompt 场景,例如包含空间关系、多物体关系或细粒度描述的输入,来检验生成结果是否真正理解文本内容,而不是仅仅在简单场景下表现良好。

最后是对真实感的评估,通过 FID 和多种人类偏好相关指标来判断生成图像是否接近真实分布,同时是否符合人类审美和直觉判断。从整体逻辑来看,这一系列实验并不是在比较不同模型谁更强,而是在验证一种控制系统是否能够更有效地引导生成过程。

在模型选择上,研究团队刻意选用了 SD3.5、Flux 和 Qwen-Image 三种具有明显差异的模型。这些模型不仅在参数规模上从中等到超大存在明显跨度,而且在具体架构上也有所不同,但都属于 flow-matching diffusion 这一技术路线。

这样的选择使实验能够覆盖不同复杂度和不同表达能力的生成系统,从而检验方法是否具备跨模型的通用性。如果一种方法只在单一模型上有效,很可能只是针对特定结构进行了适配,而在多模型上都能保持提升,则更能说明其改进具有普适意义。

在评价体系的设计上,研究人员采用了分层结构来避免单一指标带来的偏差。第一层关注分布层面,通过 FID 衡量生成图像与真实数据分布之间的距离,从而反映整体图像质量和真实性。

第二层关注语义层面,通过 CLIP 等指标评估图像内容与文本之间的一致性,这一层主要反映模型是否正确理解输入语义。第三层则引入人类偏好相关指标,用于评估生成结果在视觉上是否自然、是否具有审美价值以及是否符合人类直觉。

这三层从统计分布、语义匹配和主观感受三个角度共同约束模型表现,可以有效避免模型在某一指标上表现突出但整体效果不佳的问题。

研究团队还通过消融实验对方法内部机制进行了进一步分析。由于 SMC-CFG 引入了滑模面作为控制目标,并通过 switching 控制实现非线性反馈,这些设计都可能影响系统的稳定性和收敛行为,因此需要单独验证各个组成部分的作用。

通过调整关键参数,可以观察到系统在收敛速度、稳定性以及生成效果之间的变化关系,从而判断性能提升是否确实来源于控制机制本身,而不是偶然的参数组合。这一步对于证明方法的可靠性非常关键,因为只有在不同设置下仍然表现出一致规律,才能说明设计具有理论支撑。

综合来看,这一系列实验构成了一个清晰的验证逻辑,也就是从线性控制到非线性控制的转变所带来的影响。传统 CFG 作为线性控制方式,在复杂生成过程中容易引发不稳定行为,而引入滑模控制后,系统能够更稳定地收敛到目标状态。

在这种更稳定的动态过程中,语义信息能够更有效地注入,同时图像质量不会受到明显破坏,因此最终表现为语义对齐更好且图像质量更高。整个实验过程实际上是在逐步验证这一因果链条,从而证明新的控制机制确实能够从根本上改进生成过程。

不是改进 CFG,而是重写 CFG

这项研究并不只是说明研究提出了一种更强的方法,更重要的是,它改变了人们理解图像生成模型的方式。过去,CFG 更像是一种经验性的调节手段,很多时候只能靠不断试参数来找平衡,知道它有用,但很难解释为什么有时有效、有时会失控。雷峰网

研究团队把这个问题提升成了控制问题,也就是把条件预测和无条件预测之间的差异看成误差信号,把 guidance 看成控制输入,把 diffusion flow 看成一个动态系统。这样一来,后续研究就不再只是反复调 guidance,而是可以像设计控制系统一样,去分析稳定性、收敛性和鲁棒性,从经验技巧走向系统理论。

研究还有一个很重要的意义,就是把 CFG 为什么会失败这件事讲清楚了。很多人都知道,guidance scale 一旦调高,模型虽然会更听 prompt 的话,但图像也更容易崩,出现颜色不自然、结构扭曲、细节变坏的问题。

研究人员说明,根本原因在于 CFG 本质上是在做线性误差放大,而 diffusion 本身却是一个非线性系统,所以一旦放大过头,就容易出现振荡和发散。也正因为如此,研究团队引入了滑模控制这种非线性控制方法,让系统在复杂情况下也能被拉回更稳定的轨道。

这个突破的意义在于,它说明 diffusion guidance 本质上不是一个简单调权重的问题,而是一个需要用非线性控制来处理的问题。

对普通人来说,这项研究的影响也很直接。用户在使用 AI 绘图工具时,最关心的不是背后的理论,而是输入一句话之后,结果能不能稳定、能不能少翻车、能不能更接近自己的想法。更稳定的 guidance 机制意味着,以后生成复杂画面时,空间关系错乱、文字错误、结构崩坏这些问题会更少,用户不需要为了得到一张能用的图反复尝试很多次。

对于设计师、自媒体创作者、电商运营等人来说,这会直接降低试错成本,提高出图效率。更长远地看,这项研究的价值就在于,它推动文生图模型从偶尔惊艳但不稳定,逐渐走向真正可靠、可以进入日常工作和生活的工具。

CFG-Ctrl 背后的科研工作者

论文一作为汪晗阳,现为清华大学电子工程系硕士一年级学生,本科毕业于清华大学计算机科学与技术系,2025 年获得工学学士学位,师从段岳圻,研究方向集中在 3D 计算机视觉、视频生成和 AIGC。

相关学术成果发表于 CVPR、ICCV、NeurIPS、ECCV、TIP 和 TPAMI 等重要会议与期刊,内容涉及稀疏视角 3D 重建、3D 生成中的人类偏好对齐、语言嵌入场景重建、视频生成测试时扩展、物理属性学习,以及从单张图像生成高质量 3D 网格等方向。

论文的通讯作者为段岳圻,他是清华大学电子工程系教研系列副教授,博士生导师。研究方向为计算机视觉、模式识别。2014 年和 2019 年在清华大学自动化系分别获得工学学士和博士学位,2019 至 2021 年在斯坦福大学计算机系担任博士后研究员,合作导师为美国三院院士Leonidas J. Guibas教授。

他以第一/通讯作者发表计算机视觉与模式识别领域 IEEE汇 刊和 CCF-A 类会议论文 40 余篇,以通讯作者获 2024 年 ICME 最佳论文提名。

段岳圻入选中国科协青年人才托举工程项目,获 2025 年中国电子学会技术发明一等奖、2024 年中国电子学会自然科学一等奖、2024 年公安部科学技术一等奖。

担任IEEE TCSVT期刊编委,CVPR、ICCV、ECCV、ICML、ICLR等国际会议领域主席,中国计算机学会计算机视觉、人工智能与模式识别、多媒体技术专委会执行委员。

]]> 人工智能 https://www.leiphone.com/category/ai/sfen7fK47QGQvIEo.html#comments Wed, 22 Apr 2026 14:57:00 +0800 东南大学耿新团队:模型不是不会做,而是被「挤掉了能力」丨CVPR 2026 https://www.leiphone.com/category/ai/o5qRES2fhWjaokRQ.html 你可能遇到过这样一种情况,一个模型原本只做一件事的时候表现很好,但一旦不断往里面加新任务,它反而开始变差了。不是彻底失效,而是变得不稳定,有些能力开始下降,有些结果开始波动。问题不在于模型不会,而在于它原本会的东西,被后来加入的任务“挤掉了一部分”。

这背后其实有一个很少被说清楚的问题。模型的能力并不是一块一块独立放进去的,而是共享同一套内部表示空间。简单理解,就是所有任务都在“用同一块地方存信息”。

当任务变多时,它们不是并排存在,而是在争这块空间里最重要的那些位置。谁占得多,谁就更稳定;谁被挤掉,谁的性能就下降。这就是为什么,多任务融合经常不是越多越强,而是越多越乱。

现实中,这种问题其实非常普遍。比如一个持续迭代的系统,不断往里加新能力,每一次看起来只是“多做了一件事”,但实际上是在重新分配内部的表示空间。如果没有好的机制,新的能力往往会影响旧的能力,最后系统变成一个需要不断修补的状态,而不是自然扩展。

在这样的背景下,来自东南大学的耿新团队提出了论文《Model Merging in the Essential Subspace》。他们没有再去做更复杂的参数融合,而是换了一个更关键的问题来思考,也就是模型里的“重要信息到底在哪里”。

近年来,耿新团队提出的“学习基因”思想(即在多任务之间共享核心的关键模型参数)为这一问题提供新的解决方案。研究团队发现,模型的有效能力其实并不是均匀分布在所有参数里,而是集中在少数几个关键方向上,这些方向才是真正决定任务表现的部分。

一旦这样理解,问题就变清楚了。多任务融合失败,不是因为参数没合好,而是因为这些关键方向发生了重叠和冲突。于是,这项研究做的事情就变成两步,一步是把不同任务的重要方向尽量分开,避免它们互相挤占;另一步是让更重要的信息被保留下来,而不重要的部分被压下去。这样一来,不同任务就有可能在同一个模型里稳定共存。

从这个角度看,这篇工作真正改变的,不只是方法本身,而是看问题的方式。它把模型融合从简单的参数操作,变成了一个关于信息如何分配、如何共存的问题,也让多任务系统不再只是不断叠加能力,而开始有可能真正“长”出更多能力,而不互相干扰。

论文链接:https://arxiv.org/pdf/2602.20208

模型融合失败,根源子空间冲突

从实验结果来看,研究团队真正想说明的,不是方法在某一个设置下偶然更高,而是随着多任务融合难度上升,ESM (Essential Subspace Merging)仍然能够保持更稳定的性能。

传统方法在任务不断增加时,往往会出现明显的性能滑坡,任务越多,任务之间的互相干扰则越强,最终导致融合效果快速下降。相比之下,ESM的表现更稳定,当其他基线的性能损耗通常达到 8% 到 9% 时,ESM 的损耗幅度明显更小,整体损耗率相比基线低了约 20%。这说明 ESM 更能抵抗多任务增加后带来的相互干扰,能够保住更多原本属于各个任务的有效知识。

如果把模型规模一起看,研究结果还能说明另一点。在更大的模型上,各种方法本来就已经能做到 90 以上,ESM 相比现有强方法的提升会缩小到大约 0.3 到 0.5。

这并不表示 ESM 作用变弱,反而说明大模型本身就有更强的表示容量和更自然的子空间分离能力,因此 ESM 的价值,本质上就是人为构造一种更清晰的子空间解耦机制,而这种机制在模型容量有限时更重要。

研究还给出了一个很关键的上下界参照。未微调模型的性能大约在 50% 到 65% 之间,单任务微调后的专家模型大约在 90% 以上,而 ESM 能达到 81% 到 91%。

这说明 ESM 已经不只是比基线略好一点,而是在明显逼近多任务融合的理想上界。换句话说,ESM 已经相当接近“多个任务合并后仍尽量保持单任务效”的目标。

为了说明为什么会更好,研究人员又做了拆解实验。只把分解方式从 SVD 换成 ESD,性能就会从 89.0 提升到 90.9,增幅达到 1.9,这说明问题的关键首先在于子空间选择。

之后再加入 Polarized Scaling,性能又从 90.9 提升到 91.8,再提高 0.9,这表明 ESD 主要解决信息丢失问题,而 Polarized Scaling 主要解决信息竞争问题。也就是说,整个方法之所以有效,是因为它同时处理了“保留什么信息”和“怎样让这些信息共存”这两个核心问题。

进一步看内部机制,研究发现 ESD 在只保留较少成分时,仍然能留下更多有效信息,而传统的 SVD 需要保留更多维度才能达到相近效果。这说明 ESD 找到的是更集中、更高效的信息表示,真正关键的任务知识并不是均匀分布在所有方向上,而是集中在少数功能性更强的方向里。

研究还发现,即使只保留 5% 的成分,ESD 得到的融合模型与原专家模型之间仍然有更高的特征一致性,这说明 ESD 保留下来的不是表面的参数结构,而是更接近任务语义和模型行为本身的东西。

在数据依赖性上,研究团队也给出了很强的证据。无论使用正常采样的数据、只包含单一类别的偏置数据,还是完全无关的外部分布数据,结果几乎都没有明显差异。

同时,只用 1 个样本时效果就已经超过 baseline,只用 4 个样本时就已经接近最优,增加到 32 个样本后基本收敛。这说明任务子空间本身是一种低维结构,不需要大量数据去估计,模型内部其实已经编码了稳定的任务响应模式。

最后,关于 Polarized Scaling,研究表明单独放大强信号会提升性能,单独抑制弱噪声也会提升性能,而两者结合时效果最好。这说明多任务融合本质上不是简单做参数平均,而更像一个信号筛选与重加权过程。

在模型内部重建知识边界

实验中,研究团队其实是在系统控制三个核心变量,目的是检验哪一种组合最接近“无损融合”。

第一个变量是子空间构造方式,也就是比较 SVD 和 ESD,前者建立在参数空间上,后者建立在输出空间上,这也是整项研究最核心的对比。

第二个变量是融合方式,也就是比较直接拼接和正交化处理,前者更直接,后者则试图消除不同任务表示之间的相关性。第三个变量是权重分配,也就是比较不加权融合和基于 norm 的 scaling,核心问题在于,不同任务信息在合并时是否应该被同等对待。

研究团队在数据设计上也有很强的针对性,所选任务覆盖图像、文本和数字等差异很大的类型,例如 Cars、SUN397、SST2 和 MNIST,目的不是追求任务丰富本身,而是尽量放大任务之间的差异与冲突,因为只有在这种高异质性条件下方法仍然有效,才能说明研究人员真正解决的是干扰问题,而不是只在相近任务上取得局部改进。

与此同时,研究人员在构造 proxy 数据时刻意把数据规模压到很小,每个任务只使用 32 个无标签样本,这种设计不是为了节省计算而已,更重要的是验证子空间究竟来自模型内在结构,还是只是来自数据统计结果,后续实验结果表明,研究人员提取到的确实更接近模型内部已经形成的任务结构。

为了保证不同任务在融合中拥有相对公平的表达容量,研究团队又设计了 rank 分配策略,让每个任务分配到的维度满足 k = 总维度 / 任务数,这一步本质上是在做资源公平分配,因为如果没有这种约束,强任务更容易占据更多表示空间,弱任务则可能被淹没。

进入融合阶段之后,研究人员发现简单拼接会带来两个直接问题,一是不同任务子空间可能发生重叠,二是重叠之后会引发信息冲突,因此又加入正交化步骤,其本质作用就是强制不同任务子空间尽量独立,这个过程在思想上很接近 PCA whitening 或信号去相关。雷峰网

最后,在权重调整上,研究团队进一步从实验中发现,高 norm 往往对应更重要的参数变化,而低 norm 更接近噪声,因此设计出 scaling ∝ (norm / 平均值)^2 这样的规则,并且把这种缩放分成三个层面来实施,也就是任务层上防止某些任务被淹没,维度层上突出更关键的特征方向,层级上减少残差结构带来的干扰。

有限空间里的多任务共存机制

整体来看,这项研究的价值不只是提出了一种更强的模型融合方法,而是把模型融合从参数拼接,推进到了知识结构重组这一层。过去很多方法默认,多个模型能不能融合,关键在参数能不能平均好,但这项研究说明,真正需要被保留的其实是模型处理输入时依赖的关键功能方向。

也就是说,研究人员重新定义了模型融合问题,关注点不再只是参数本身,而是模型能力在表示空间里如何存在、如何共存。雷峰网

这项研究还把多任务干扰解释得更清楚了。过去大家知道任务一多就容易互相拖累,但往往只能停留在冲突这个现象层面。研究团队进一步指出,干扰主要来自两个原因,一是不同任务会挤占相近的表示方向,二是强信息和弱信息在融合时会相互竞争,结果就是重要知识容易被噪声淹没。

ESD 的意义在于把不同任务的核心方向尽量分开,PS 的意义在于把更重要的信号放大、把不重要的部分压下去,所以这项研究真正完成的,是把干扰的来源和解决路径连成了一个完整解释。

更深一层看,研究结果还揭示了深度模型内部一个很重要的性质,也就是任务知识虽然存在于高维参数里,但真正决定性能的变化往往集中在少数方向上,而且这种结构对具体数据并不敏感。

这说明大模型内部并不是杂乱无章的,而是存在一种可以被提炼、被压缩、被重新组合的低维结构。这个发现的意义很大,因为它意味着未来改进模型,不一定总要靠更大数据和更长训练,也可以通过理解模型内部已有的知识组织方式来提升能力。

这项研究对普通人的影响也很现实。它意味着未来的 AI 系统更有可能在不反复重训的情况下,把多种能力整合到同一个模型里,而且整合之后更稳定,不容易因为增加一个新功能就损伤原来的能力。

对普通用户来说,这会让 AI 工具更像一个能力完整的通用助手,而不是很多彼此割裂的小工具。对企业和平台来说,这也可能降低部署成本和算力消耗,最后体现在更便宜的服务、更快的响应,以及更多设备本地就能运行的智能功能。

所以,这项研究真正重要的地方,不只是把结果做高了一些,而是证明了模型融合可以从经验式参数处理,走向对知识结构的理解与重组,这既推动了学术上对模型内部机制的认识,也会影响普通人未来使用 AI 的方式。

ESM 背后的研究者

这篇论文通讯作者为耿新,他是东南大学首席教授、东南大学研究生院常务副院长,以及新一代人工智能技术与交叉应用教育部重点实验室主任。

他分别于 2001 年和 2004 年在南京大学获得学士、硕士学位,2008 年在澳大利亚 Deakin 大学获得博士学位,之后长期在东南大学从事教学与科研工作,并创建了模式学习与挖掘(PALM)实验室。

在学术成果方面,他长期深耕机器学习、大模型、模式识别、计算机视觉等方向,在重要国际期刊和会议发表论文 230 余篇,获得国家杰出青年科学基金、国家优秀青年科学基金、国家自然科学二等奖、教育部自然科学一等奖、国家级教学成果一等奖和二等奖、科学探索奖、吴文俊人工智能自然科学一等奖等荣誉,同时担任多个国际会议程序委员会主席、领域主席及多个期刊编委。

在研究工作上,他围绕模型中的知识表示与重组展开,早期代表性工作集中在标记分布学习,也就是把传统单标记或多标记学习问题推进到具有更细粒度表示的标记分布学习,之后又把研究重心逐步扩展到端侧大模型和学习基因( Learngene)等方向,探索从基础模型中提取可继承、可复用的核心能力,实现面向不同任务和不同硬件条件的高效部署。

参考链接:https://palm.seu.edu.cn/xgeng/

另一位通讯作者为祁磊,东南大学计算机科学与工程学院副研究员、硕士生导师。早期在南京师范大学获得学士学位,在南京理工大学获得硕士学位,之后于 2020 年在南京大学获得博士学位,并在读博期间赴澳大利亚 University of Wollongong 进行访问交流。

在学术成果方面,祁磊在 ACM/IEEE 汇刊以及 CCF-A 类会议上发表 60 余篇论文, Google 学术引用 5300 余次,并主持多项国家级和省部级科研项目 。同时,他还入选国家资助博士后研究人员计划、江苏省卓越博士后、东南大学紫金学者等人才计划,并获 CCF 产学合作基金优秀项目案例、江苏省人工智能学会优秀博士论文等奖项。

在研究方向上,祁磊的工作主要集中在计算机视觉与模式识别领域,近年来主要关注于异常检测、语义分割,以及领域泛化和视觉语言模型等方向 。

参考链接:https://palm.seu.edu.cn/qilei/

]]> 人工智能 https://www.leiphone.com/category/ai/o5qRES2fhWjaokRQ.html#comments Wed, 22 Apr 2026 14:44:00 +0800 西湖大学张驰团队:不重训,也能让视频生成更长更稳丨CVPR 2026 https://www.leiphone.com/category/ai/5DzS2daCk5a4oyiM.html 过去一段时间,AI 视频最让人惊艳的,往往都是前几秒。人物状态自然,光影氛围到位,动作也足够流畅,很容易让人产生一种感觉,视频生成已经离真正可用不远了。

但行业越往前走,问题也越清楚,真正难的从来不是做出一小段漂亮画面,而是能不能把这种质量稳定地延续下去。一旦视频时长被拉长,很多模型就会开始慢慢失稳,人物、场景和动作表面上还在延续,内部却已经出现细节漂移和时序松动。

这也是为什么,今天 AI 视频行业真正卡住的地方,已经不只是能不能生成片段,而是能不能生成连续、稳定、可以承载完整情境的内容。

比如一段厨房视频里,镜头从备菜推进到下锅,再切到摆盘,观众期待看到的是同一个空间、同一套器具和同一份食材被自然地串联起来。再比如一段城市通勤视频里,人物从地铁口走到街边店铺,镜头可以变化,但人物状态、环境关系和动作逻辑不能越走越散。

只有解决这种长时间稳定性问题,AI 视频才真正有机会从展示走向创作和生产。也正是在这样的背景下,西湖大学的张驰团队提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。

这项研究关注的,不是怎样把某一帧做得更亮眼,而是为什么模型在短视频里表现很好,一旦进入长视频生成,质量就会越来越难维持。也正因为它抓住了这个行业里越来越核心的问题,所以这项研究不只是一次常规优化,而更像是在回答,AI 视频从短片段走向长内容时,究竟卡在了哪里。

论文地址:https://arxiv.org/pdf/2603.25209

更长的视频,更明显的优势

在 Wan2.1-T2V-1.3B 上,研究人员把视频长度扩展到 2 倍和 4 倍之后,发现 FreeLOC 的优势非常稳定,而且视频越长,这种优势越明显。

先看 2 倍长度,也就是 161 帧的结果。主体一致性达到 98.06,背景一致性达到 97.49,运动平滑达到 98.98,说明在人物、场景和动作连续性上,它都已经处在最好或接近最好的水平。

更突出的部分在画质相关指标上。图像质量达到 68.31,明显高于 Direct 的 60.34,也高于 Sliding Window 的 64.64 和 FreeNoise 的 67.19。美学质量达到 62.33,而其他方法大多只在 52 到 56 之间,所以这一项的领先尤其明显。

动态程度也达到 39.41,已经接近最佳。换句话说,在 2 倍长度下,FreeLOC 不是只在某一个指标上占优,而是在稳定性、清晰度和整体观感上都表现更强。

到了 4 倍长度,也就是 321 帧,长视频生成的难度会明显上升,因为模型更容易出现内容漂移、画面变糊或者动作失真。但研究结果表明,FreeLOC 在这种更苛刻的设定下仍然能保持很强的表现。

主体一致性达到 98.44,仍然几乎是最高水平。图像质量达到 67.44,而 Direct 已经掉到 59.21,差距达到 8.2。美学质量达到 61.21,Direct 只有 49.43,差距进一步扩大到 11.8。动态程度达到 36.27,而 Direct 只有 4.32,差不多已经是数量级上的差别。

这个结果说明,随着视频长度继续增加,很多方法会越来越难维持质量,但 FreeLOC 仍然能把画面质量和动态表现保持在较高水平,所以它的优势不是偶然,而是在高难度长视频场景里依然成立。

这种提升并不只出现在一个模型上。研究团队又在 HunyuanVideo 上做了同样的测试,结果趋势依然一致。2 倍长度,也就是 253 帧时,图像质量达到 68.92,美学质量达到 62.38,都是最高,主体一致性也有 97.92,优于大多数方法。

到了 4 倍长度,也就是 509 帧,图像质量仍有 67.92,美学质量仍有 61.09,动态程度达到 39.28,也接近最佳。也就是说,FreeLOC 的效果并不是只在 Wan2.1-T2V-1.3B 上成立,而是在另一套视频生成模型上也能复现出相同趋势,这就说明研究提出的方法具有比较明显的跨模型通用性。雷峰网

为了进一步说明这种提升到底来自哪里,研究团队还做了消融实验,把方法拆开来看。只使用 TSA 时,图像质量是 65.87,美学质量是 57.05,说明单独处理长上下文问题已经能带来可见提升。

只使用 VRPR 时,图像质量是 61.88,美学质量是 54.13,说明单独修正位置问题也有效,但作用还不够强。假如把 TSA 和 VRPR 一起加上去,却对所有层统一处理,图像质量是 65.19,美学质量是 56.34,虽然比只用一个模块更好,但仍然不是最佳结果。

更关键的是,研究人员还测试了随机分配到不同层的做法,结果图像质量反而掉到 63.90,这说明模块本身并不是随便放在哪里都行,真正重要的是放在哪些层上。按层选择之后,也就是 FreeLOC 的做法,图像质量达到 67.44,美学质量达到 61.21,都是最高。

这一部分实验最想说明的是,性能提升不只是因为多加了两个模块,而是因为研究人员发现不同层对不同问题的敏感程度并不一样,所以必须做分层处理,而这正是 FreeLOC 最核心的创新点之一。

研究人员还进一步比较了不同的位置处理方式和不同的注意力机制。在位置处理上,他们比较了 Clipping、Grouping 和 VRPR,最后发现 VRPR  的效果最好,图像质量达到 68.84,美学质量达到 61.21,都明显领先。这说明多粒度的位置重编码确实比简单截断或者简单分组更有效。

在注意力机制上,研究又比较了 Sliding Window、Selected Frame Attention 和 TSA,结果 TSA 依然最好,图像质量达到 68.84,美学质量达到 61.21。这意味着,单纯用滑动窗口虽然能缩小注意力范围,但会损失一部分长程信息,而 TSA 能在控制上下文长度的同时,尽量保留长距离时序关联,所以整体表现更强。

把这些实验合在一起看,研究团队实际上是在证明一件事,FreeLOC 的优势不是只体现在某一个局部技巧上,而是来自一整套更合理的设计,包括位置重编码、注意力控制,以及最关键的分层使用策略。

整体来看,这组实验传递出的结论非常清楚。无论是在 Wan2.1-T2V-1.3B 还是 HunyuanVideo 上,无论是在 2 倍长度还是 4 倍长度设置下,FreeLOC 都能同时提升视频的稳定性、清晰度、美感和动态表现,而且越到更长、更难的生成场景,这种优势越明显。

从设置到机制,一步步验证

在实验设置上,研究团队选用了两个公开可用的视频生成模型,分别是 Wan2.1-T2V-1.3B 和 HunyuanVideo,用来验证 FreeLOC 是否具有跨模型的适用性。

视频生成时,研究人员把输出分辨率统一设为 480p,也就是 832 × 480,并且重点测试了把视频长度扩展到 2 倍和 4 倍之后的生成效果。这样做的目的很明确,就是看模型在视频明显变长之后,是否还能维持原本的画面质量和时序稳定性。雷峰网

为了证明 FreeLOC 的效果不是偶然,研究还设置了多组对比方法,包括 Direct Sampling,也就是直接生成,Sliding Window,也就是滑动窗口,以及 FreeNoise、FreeLong、RIFLEx 和 FreeLOC。

这样的对比覆盖了目前比较常见的长视频生成思路,有的是最直接的基线方法,有的是通过局部窗口维持连续性,也有的是已有的训练免费方法,所以能够比较全面地看出 FreeLOC 相比其他方案到底强在哪里。

在评价方式上,研究人员采用的是 VBench 标准,并且把指标分成了一致性和质量两大类。一致性方面主要看 Subject Consistency,也就是人物在长视频里会不会变形或漂移,Background Consistency,也就是背景是否稳定,以及 Motion Smoothness,也就是动作和运动过程是否连续自然。

质量方面主要看 Imaging Quality,也就是画面清晰度,Aesthetic Quality,也就是整体视觉美感,以及 Dynamic Degree,也就是视频的动态表现强不强。这样一来,研究考察的就不只是单纯的清晰度,而是把人物稳定、背景稳定、动作连续、画面质量和观感都纳入了评估范围。

除了常规的对比实验,研究团队还做了一个很关键的探测实验,也就是逐层分析 Transformer。具体来说,研究人员会对每一层施加扰动,然后观察两个结果,一是视觉质量到底下降了多少,二是 attention 的变化到底有多大。

通过这种方法,他们发现不同层对问题的敏感性并不一样,有的层更容易受到位置变化的影响,有的层更容易受到长上下文扩展的影响。这个发现非常重要,因为它直接支持了 FreeLOC 后面的分层处理思路,也就是不是所有层都一视同仁,而是要针对不同层采用不同修正方式。

研究还专门验证了两类核心的 O.O.D 问题。第一类是位置 O.O.D,做法是改变帧之间的相对位置关系,然后观察生成质量会不会下降。第二类是长度 O.O.D,做法是直接增加视频长度,再计算 attention entropy,也就是注意力分散程度。

实验结果表明,视频长度一旦增加,attention 就会变得更分散,而注意力越分散,生成质量往往越差。也正是基于这两类问题的验证,研究团队才进一步提出了后面的 VRPR、TSA 和分层适配策略。整体来看,这一部分实验经过的意义就在于,研究并不是只做结果对比,而是先把问题来源拆清楚,再针对性地设计解决办法。

从「能生成」走向「能使用」

这项研究的意义,不只是把长视频生成的结果做得更好,而是把问题背后的原因说清楚了。研究团队指出,长视频之所以容易出现画面变糊、动作不连贯、人物不稳定这些问题,核心来自两类 O.O.D,也就是位置 O.O.D 和上下文 O.O.D。

这个判断很重要,因为它说明过去很多方法更像是在不断试技巧、调参数,而这项研究开始把问题推进到机制解释的层面。也就是说,研究人员不仅提出了一个更有效的方案,还解释了为什么以前的方法容易失效,为什么视频一变长,模型就会更容易出问题。

这项研究还有一个很实际的意义,就是证明了训练并不是唯一办法。以前一说到长视频生成,很多人会默认要重新训练模型,或者至少做一次很重的额外训练,因为短视频模型通常很难直接应对更长的时序范围。

研究团队这次证明,只在推理阶段做更精细的修正,也能明显改善生成效果。这一点很关键,因为它意味着算力成本会更低,现有模型也更容易直接使用,对技术落地和实际部署都更有帮助。

另外,研究人员还重新揭示了 Transformer 不同层的作用差异。他们发现,不同层并不是在做同一件事,有些层更容易受到位置问题影响,有些层更容易受到长上下文问题影响。

所以真正有效的方法,不是一刀切地改所有层,而是先找出问题主要集中在哪些层,再做针对性修复。这个认识很有价值,因为它不只适用于视频生成,对长上下文的 LLM、图像生成模型的推理优化,其实也都有启发。

换句话说,这项研究提出的不只是一个技巧,更是一种更通用的思路,也就是先识别问题,再定位到层,最后做局部修复。

如果从普通人的角度来看,这项研究的影响其实也很直接。未来大家用 AI 生成稍微长一点的视频时,人物突然变脸、衣服乱变、背景乱跳、动作接不上的情况,有望明显减少。

对普通用户来说,这意味着做故事短片、教学视频、产品展示视频时,成片会更稳定,也更接近真正能用的内容。对内容创作者来说,这意味着返工会更少,制作成本会更低,小团队和个人创作者也更有机会用现成模型做出更长、更连贯的视频内容。

所以这项研究真正推动的,不只是技术指标的提升,而是让 AI 长视频生成离日常可用、商业可用又近了一步。

FreeLOC 的创建者

论文一作田佳豪,目前是西湖大学 AGI Lab 的科研助理,师从张驰教授。主要从事计算机视觉方面的研究。他当前的研究重点集中在扩散生成模型,视频生成,世界模型等方向。

就学术成果来看,他已发表或参与多项工作,包括以第一作者发表在 CVPR 2026 的FreeLOC,以及投递于 ECCV 2026 的 HeadForcing,此外还发表了 DCCM,Loss-Guided Diffusion For General Controllable Generation 等工作,整体研究路径体现出从图像级扩散模型理论、视频时序建模到自回归长视频生成与交互式视频合成的持续推进。

通讯作者张驰,西湖大学助理教授、独立PI,同时担任 AGI Lab负责人,在生成式人工智能和多模态智能方向开展研究工作。在

此之前,他曾在腾讯担任研究科学家,并于新加坡南洋理工大学获得博士学位,师从林国盛教授,同时与沈春华等学者保持长期合作关系。在学术影响力方面,他连续入选斯坦福大学发布的全球前 2% 科学家榜单,并担任多个顶级会议和期刊的重要学术服务角色,包括 ICML、ICLR、CVPR 等会议的 Area Chair,以及 IEEE T-CSVT 的副编辑。

在学术成果与研究产出方面,他长期深耕生成式人工智能领域,研究方向涵盖扩散模型、多模态生成建模以及智能体系统,近年来带领团队在 CVPR、ICCV、ICLR、NeurIPS 等顶级会议上持续发表成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

这些研究从图像生成、视频生成延伸到 3D/4D 场景建模以及多模态智能体,形成了一条从视觉理解到世界建模的系统性研究路线。

从整体研究特点来看,张驰的工作强调生成模型的可控性、多模态融合能力以及向真实世界建模能力的拓展,既关注模型基础理论,也注重实际系统构建与应用落地。例如在视频生成与3D建模方向,他推动从单纯生成内容向可控相机运动和空间理解发展,在智能体方向,他探索多模态大模型在真实交互环境中的应用。

这种研究路径体现出从传统计算机视觉向通用人工智能过渡的趋势,也使其工作处于当前人工智能领域较为前沿的位置。

参考链接:https://icoz69.github.io/

]]> 人工智能 https://www.leiphone.com/category/ai/5DzS2daCk5a4oyiM.html#comments Wed, 22 Apr 2026 14:28:00 +0800 西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026 https://www.leiphone.com/category/ai/Hui1xX2vdMbvb4z2.html 过去两年,视频生成的发展几乎是指数级的。从最早只能生成模糊片段,到如今可以生成具有叙事结构、光影一致性甚至风格控制的长视频,行业表面上已经接近一个阶段性成熟。

但如果把评价标准从“能不能生成一段视频”稍微提高到“能不能控制镜头”,问题就会完全暴露出来。当前大多数模型仍然停留在一种近似二维的生成范式中,它们擅长在时间上延续视觉模式,却缺乏对空间结构的稳定建模能力。

一旦涉及视角变化,模型往往无法保证同一个物体在不同帧之间的几何一致性,人物会发生细微但累积的漂移,建筑结构在移动中逐渐扭曲,遮挡关系也难以维持连续,这意味着模型生成的并不是一个被持续观察的世界,而是一系列在视觉上相似但空间上不一致的结果。

在这样的行业背景下,西湖大学 AGI Lab 研究团队提出了论文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》,值得一提的是,这篇论文也入选了 CVPR Highlight。与以往通过重新训练模型来引入控制能力的路径不同,这项工作将问题重新落回到推理阶段本身,尝试在不改变模型参数的情况下,让相机轨迹成为生成过程中的约束条件,使模型在每一步生成中持续对齐同一个空间结构。

换句话说,这项研究关注的不是如何让模型生成更多内容,而是如何让模型在视角变化中保持世界的一致性,从而把视频生成从二维视觉合成,推进到具有三维结构约束的动态世界建模。

如果从应用角度理解这一点,可以把它看成一种能力的转变。过去模型更像一个能够不断画出新画面的系统,而现在的目标,是让模型像一个可以移动的摄影机,在同一个场景中进行观察和记录。无论是商品展示、空间漫游,还是内容创作中的镜头设计,本质上都依赖这种能力的成立。

WorldForge 的提出,正是在这一关键转折点上,给出了一个不依赖额外训练、却能够实现精确相机控制的路径,也因此成为当前视频生成从“生成能力竞争”走向“空间一致性与可控性竞争”的一个代表性工作。

论文地址:https://arxiv.org/pdf/2509.15130

跨任务、多指标的统一性能提升

在实验结果方面,研究团队首先验证了 3D 静态场景生成,也就是单图到多视角任务,相关数据来自 Table 1。从生成质量看,WorldForge 的 FID 为 96.08,是所有方法里最低的,CLIPsim 为 0.948,是所有方法里最高的。作为对比,TrajectoryCrafter 的 FID 为 111.49,CLIPsim 为 0.910,NVS-Solver 的 FID 为 118.64,CLIPsim 为 0.937。

这说明 WorldForge 在真实感和语义一致性上都更强,FID 从 118 下降到 96,降幅约 20%,CLIPsim 从 0.91 提升到 0.948,说明生成结果既更真实,又更符合原图语义。

从轨迹精度也就是相机控制能力看,WorldForge 的 ATE 为 0.077,是最低值,RPE-T 为 0.086,RPE-R 为 0.221。对比来看,ViewCrafter 的 ATE 为 0.236,约为 WorldForge 的 3 倍,NVS-Solver 的 RPE-R 为 1.056,明显高于 0.221,所以可以看出,相机路径误差被显著压低,整体大约达到 2 到 5 倍的改进。

在 4D 动态视频生成任务中,也就是输入视频并重新指定轨迹的场景,相关数据来自 Table 2。从视频质量看,WorldForge 的 FVD 为 93.17,是最低值,CLIP-Vsim 为 0.938,是最高值。

对比方法中,TrajectoryCrafter 的 FVD 为 97.31,ViewExtrapolator 的 FVD 为 108.48。也就是说,WorldForge 相比 108 降到 93,提升幅度约为 15%,说明在动态视频生成中,画面质量和语义一致性仍然保持领先。从轨迹精度看,WorldForge 的 ATE 为 0.527,RPE-T 为 0.826,RPE-R 为 2.690,而 ViewExtrapolator 的 ATE 为 1.040,几乎是前者的两倍,这说明在动态视频条件下,WorldForge 依然能保持比较稳定的轨迹控制效果。

除了性能指标,研究人员还给出了实验规模,这部分信息很重要。在 3D 任务中,实验覆盖 40 多个场景、70 多张单图输入,使用的数据集包括 LLFF、Tanks & Temples、MipNeRF 360,同时还加入了真实图片和 AI 生成图片。雷峰网

在 4D 任务中,实验覆盖 30 多个视频和 50 多个测试样例,数据来源包括 DAVIS 数据集、电影片段以及 VDM 生成视频。这样的设置说明,测试范围同时覆盖真实世界数据和合成数据,泛化能力验证相对充分。

研究团队还说明了实验条件。主模型使用 Wan2.1,规模为 14B,硬件方面需要至少 69GB 显存的 GPU。生成阶段采用 50 步采样,其中 IRR 作用在前 20 步。这组条件说明,方法在效果上很强,但计算成本也比较高,对硬件资源有较高要求。

在消融实验部分,相关数据来自 Table 3。完整模型表现最好,其中 FID 为 96.08,FVD 为 93.17。去掉 DSG 以后,FID 上升到 109.43,FVD 上升到 95.69,说明画面质量和视频质量都明显变差。

去掉 FLF 以后,FID 进一步上升到 112.69,FVD 上升到 99.79,结果更差。把 DSG 和 FLF 一起去掉以后,FID 达到 113.12,FVD 达到 103.17,退化更加明显。如果把 DSG 换成传统 CFG,结果最差,FID 达到 120.91,FVD 达到 109.1。

综合这些数字可以看到,每个模块都会带来大约 10% 到 20% 的性能提升,而且几个模块之间存在明显的互补关系,少了任何一个,整体效果都会下降。

一套可迁移、可控制的生成流程

在实验经过方面,研究团队首先从模型设置入手验证方法的通用性,一共选用了三个不同类型的视频生成模型进行测试,分别是作为主实验基础模型的 Wan2.1,其规模为 14B,作为轻量级对照模型的 SVD,以及较新的 LongCat-Video 模型。

通过在这三类能力和结构差异明显的模型上分别进行实验,研究人员观察方法在不同基础能力条件下的表现变化,结果显示方法可以直接迁移到不同视频模型中使用,不依赖特定模型结构或训练方式,因此具有明显的模型无关性,也就是 model-agnostic 特征。

在推理流程参数方面,研究团队对扩散生成过程进行了精细控制。整个视频生成过程统一设置为 50 步采样。在这一过程中,IRR 并不是在全部步骤中持续作用,而是集中作用在前 35% 到 45% 的阶段,也就是大约前 15 到 25 步之间,在主实验配置中通常为前 20 步。

这一阶段主要负责建立整体结构和运动趋势,因此通过 IRR 在这一阶段持续注入轨迹信息,可以不断修正生成方向,使结果逐步贴近目标相机路径。

与此同时,FLF 在时间维度上也采用分阶段策略,在最初的若干步中关闭 FLF,让模型优先利用全部通道建立整体结构,避免过早限制信息流动而影响全局布局,随后在中后期逐渐启用 FLF,对通道进行筛选,仅对运动相关通道施加约束,从而在不破坏外观细节的前提下加强轨迹控制。

这种安排体现出一种明显的时间调度机制,也就是在不同生成阶段分配不同控制强度,从而在结构稳定性与细节保真之间取得平衡。

在轨迹类型设计方面,研究团队为了验证方法的适用范围,构建了多种不同形式的相机运动路径进行测试,包括圆弧轨迹,也就是 arc,用于模拟围绕目标的侧向移动;推进轨迹,也就是 dolly,用于模拟镜头前进或后退;旋转轨迹,也就是 orbit,用于实现环绕式观察;以及自由探索路径,用于测试复杂、不规则的相机运动。

这些轨迹不仅在几何形式上存在差异,同时在运动幅度、视角变化范围以及遮挡情况上也存在显著不同。通过在这些多样化轨迹条件下进行实验,研究人员验证方法不仅可以处理规则路径,也可以应对复杂动态路径,从而说明方法具备较强的泛化能力,而不是只对某一类预设运动模板有效。

在评价指标选择方面,研究团队结合任务特点进行了专门设计。对于单图生成多视角的 3D 任务,由于输入只有一张图像,目标视角并不存在真实参考,也就是没有 ground truth,因此无法使用依赖真实图像对比的指标,例如 PSNR 这一类像素级误差指标。

在这种情况下,研究人员选择使用 FID 来衡量生成结果在分布层面与真实图像的接近程度,同时使用 CLIP 相似度来评估生成内容在语义层面与输入图像的一致性。

对于 4D 动态视频任务,则进一步引入 FVD 来衡量视频整体质量,以及 CLIP-Vsim 来评估视频语义一致性。这种指标体系体现出研究团队对问题性质的理解,也就是把任务视为生成问题而不是重建问题,因此评价重点放在真实感、语义一致性以及时间连续性,而不是像素级还原精度。

从结果优化,到过程控制的一次转向

在实验意义方面,这项研究的价值不仅体现在指标提升上,更体现在它改变了视频生成技术的发展方向。首先,从性能上看,研究结果不是只优化了某一个局部环节,而是在多个核心维度上同时取得提升。

FID 下降了 20%,FVD 下降了 15%,轨迹误差降低了 2 到 5 倍,这说明研究团队提出的方法既能让画面更真实,也能让视频更稳定,还能让相机运动更准确。

换句话说,研究人员解决的不是单一的清晰度问题,也不是单一的控制问题,而是把生成质量、运动一致性和空间控制能力一起往前推进了一步,这种全面提升说明方法已经具备较强的实用潜力。

从方法意义上看,这项研究进一步说明,视频生成未来的重要方向,很可能不是不断重新训练更大的模型,而是在推理过程中进行更精细的控制。研究人员通过实验发现,传统 CFG 在这一任务中会失败,FID 会高到 120 以上,而使用 DSG 以后,FID 可以降到 96。

这说明过去那种主要面向图像生成的控制思路,放到视频任务里并不够用,因为视频不仅要生成单帧内容,还要保证前后帧衔接自然,人物和场景不能乱变,镜头运动也不能失控。也正因为如此,研究团队提出的结构感知式控制方式才显得更有意义,它证明视频生成不能只靠简单加条件,而是需要真正理解空间结构和运动关系。

从理论意义上看,这项研究还有一个很重要的贡献,就是进一步证明了 latent 空间内部并不是混在一起、无法区分的。FLF 的实验结果表明,不同通道确实承担着不同功能,有些更偏向运动信息,有些更偏向外观与细节信息。

从工程意义上看,这项研究也很诚实地揭示了当前技术所处的阶段。方法虽然强,但成本也高,需要大约 70GB 显存,还要进行多路径推理,所以它更像是一种高质量离线渲染方案,而不是已经成熟到可以实时运行的轻量系统。

这一点其实也很有意义,因为它告诉人们,当前视频生成技术已经能够做出高质量结果,但距离真正低成本、实时化、大规模普及,还有一段工程化的路要走。也就是说,这项研究更像是在证明一件事可行,而不是已经把一件事做成人人随手可用的产品。

如果进一步看这项研究对普通人的影响,意义会更直观。对于普通用户来说,这类技术未来最直接的变化,就是拍视频和做视频的门槛可能会继续降低。以前想拍出镜头绕人移动、缓慢推进、自由换视角的效果,往往需要专业摄影设备、轨道、稳定器,甚至还要后期团队处理。雷峰网

沿着这项研究继续发展,未来普通人只用一张图或者一段普通视频,就有可能生成更像电影镜头的画面,旅游视频、毕业纪念、短视频创作、家庭影像记录都会因此变得更容易、更丰富。

对于内容创作者来说,这种技术会进一步改变创作方式。很多人没有专业拍摄条件,也不会复杂建模,但依然希望让视频看起来更有空间感、更有镜头语言。

这项研究说明,未来创作者可能只需要先拍一个基础画面,后续再通过生成式方法重新设计镜头轨迹,让镜头前进、环绕、拉远、探索场景,等于把部分摄影和后期能力交给了模型。这样一来,个人创作者、小型工作室,甚至普通学生,都可能获得过去只有专业团队才能完成的视觉表达能力。

也就是说,这项研究虽然现在还主要停留在高成本实验阶段,但它指向的是一种更低门槛、更强表达力的视觉生产方式,而这种变化最后会落到普通人的观看体验、记录方式和创作能力上。

WorldForge 背后的科研力量

论文一作宋晨曦,目前是西湖大学 AGI Lab 的博士后研究员,师从张驰教授,2024 年于吉林大学获得工学博士学位,博士阶段主要从事 3D 计算机视觉与计算机图形学研究。

他当前的研究重点集中在 3D 与 4D 场景建模、可控视频生成等方向,同时也活跃于学术共同体,担任 NeurIPS、CVPR、ECCV、AAAI、MM 和 T-CSVT 等会议与期刊的审稿人。

就学术成果来看,他已发表或参与多项代表性工作,包括以第一作者发表在 CVPR 2026 的 WorldForge,以及发表于 IEEE T-CSVT 的 FewarNet,此外还参与了 SwitchCraft、Free-Lunch Long Video Generation、FlowDirector、Fast3Dcache、AppAgentX 等项目,整体研究路径体现出从多视角重建、3D 几何建模到训练自由的视频生成与世界模型构建的持续推进

参考链接:https://chenxi-song.github.io/

通讯作者张驰,西湖大学助理教授、独立PI,同时担任 AGI Lab负责人,在生成式人工智能和多模态智能方向开展研究工作。在

此之前,他曾在腾讯担任研究科学家,并于新加坡南洋理工大学获得博士学位,师从林国盛教授,同时与沈春华等学者保持长期合作关系。在学术影响力方面,他连续入选斯坦福大学发布的全球前 2% 科学家榜单,并担任多个顶级会议和期刊的重要学术服务角色,包括 ICML、ICLR、CVPR 等会议的 Area Chair,以及 IEEE T-CSVT 的副编辑。

在学术成果与研究产出方面,他长期深耕生成式人工智能领域,研究方向涵盖扩散模型、多模态生成建模以及智能体系统,近年来带领团队在 CVPR、ICCV、ICLR、NeurIPS 等顶级会议上持续发表成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

这些研究从图像生成、视频生成延伸到 3D/4D 场景建模以及多模态智能体,形成了一条从视觉理解到世界建模的系统性研究路线。

从整体研究特点来看,张驰的工作强调生成模型的可控性、多模态融合能力以及向真实世界建模能力的拓展,既关注模型基础理论,也注重实际系统构建与应用落地。例如在视频生成与3D建模方向,他推动从单纯生成内容向可控相机运动和空间理解发展,在智能体方向,他探索多模态大模型在真实交互环境中的应用。

这种研究路径体现出从传统计算机视觉向通用人工智能过渡的趋势,也使其工作处于当前人工智能领域较为前沿的位置。

参考链接:https://icoz69.github.io/

]]> 人工智能 https://www.leiphone.com/category/ai/Hui1xX2vdMbvb4z2.html#comments Wed, 22 Apr 2026 14:19:00 +0800 21.0975 公里,是人形机器人的里程碑,也是 RISC-V 的新起点 https://www.leiphone.com/category/ai/Dwb8f1Vzvx72ToZg.html 2026年4月19日,第二届北京亦庄人形机器人半程马拉松赛事圆满落幕。多台搭载进迭时空 RISC-V AI CPU K3 芯片的「灵龙 2.0」人形机器人顺利完赛。「灵龙 2.0」是上海国家地方共建人形机器人创新中心开发的人形机器人平台。

在长距离、高负载、强实时的极限场景中,K3 经受住了实战验证。面对人形机器人运动控制对芯片“算力、响应、功耗、通信”高度耦合的系统级严苛要求:既要保障AI推理的高吞吐算力,又要满足伺服控制的瞬间响应,还需在长续航下守住功耗红线、在多传感器并行时压缩传输延迟。K3 从芯片微架构层面给出了一体化解答,标志着 RISC-V 芯片方案已具备支撑高动态、复杂环境人形机器人竞技的成熟工程能力。

 架构优势:为人形机器人而生的芯片微架构

传统“CPU+MCU+NPU”多芯片分立架构,各功能域依赖外部总线桥接,跨芯片通信延迟存在高度不确定性。在 500Hz+ 高频伺服场景下,这种微秒级抖动成为难以逾越的系统性瓶颈。K3 则从芯片微架构层面给出了一体化解答:

 K3 芯片一体化架构示意图

▲ 3MB TCM,打破推理“内存墙”。RL 策略权重完整驻留片上,消除 DDR 访问延迟长尾,实测推理延迟降低约 60%,P99 与 P50 几乎持平;

▲ 1024 位超宽向量引擎,弥合 Sim2Real 时序鸿沟单指令并行处理 128 个 INT8 数据,保障多模态+数据时间戳严格对齐;

▲ 双域共享中断与双套控制寄存器共存,实现实时域与算力域的并行自治。实时域以微秒级延迟完成电机指令下发,算力域同步刷新推理流水线,两域按各自时钟独立调度,互不拖累,500Hz通信周期抖动稳定在个位数微秒量级;

▲统一内存架构,实现三域共享内存与域间互相保活。通用域、算力域、实时域共享同一物理内存,零拷贝数据流转,端到端延迟趋近于单次内存访问。

架构共振:K3+OpenLoong软硬深度融合

K3 芯片架构与 OpenLoong 控制框架之间,不是简单的“兼容”关系,而是硬件拓扑与软件分层在设计上的精准对齐——框架的每一层抽象都能直接映射到芯片的对应硬件域,无需适配层、无需中间件桥接、无需性能妥协。

 灵龙机器人 OpenLoong 控制框架示意图(业务层、推理层、驱动层三层解耦架构)

这种架构共振体现在三个关键维度:

▲ 维度一:OpenLoong 框架无锁共享内存 ↔ 多核拓扑,零拷贝数据共享

▲ 维度二:CAN FD 中断直连大核 ↔ 驱动层硬实时需求——路径最短、确定性最高,中断延迟控制在个位数微秒

▲ 维度三:三域 UMA ↔ data_center 零拷贝数据流,K3 的三域统一内存架构为软件设计意图兑现

OpenLoong 的业务层 → X100 通用域,推理层 → A100 算力域,驱动层 → RCPU 实时域;data_center 无锁队列 → UMA 共享内存。三层对三域,层层精准映射——这就是“架构共振”的本质,不是事后适配,而是设计哲学上的同频共振。 

生态践行:高效落地,快速验证

从 x86_64 训练环境向 RISC-V 端侧迁移,通常面临 C/C++ 运行时依赖及内核驱动 ABI 差异等交叉编译风险。K3 的应对策略是从底层消除这些障碍:

▲ Upstream 主线合入:K3 核心模块已合入 Linux v7.0-rc1 内核主线,是全球首款填补 RISC-V RVA23 Profile 规范内核空白的量产芯片,ABI 兼容性与驱动稳定性从源头得到保障;

▲ Bianbu OS 预置完整机器人软件栈:基于 Ubuntu 26.04 LTS 构建,原生集成 ROS 2 Jazzy、Nav2、MoveIt 2 等核心中间件,预置经硬件适配验证的 HAL 包;

▲ 工具链闭环:GCC 14 RISC-V 交叉编译工具链、GDB 远程调试、perf/ftrace 性能剖析及 SpacemiT AI 模型 Profiler,覆盖从编译、调试到性能调优的全流程。

主线内核与成熟工具链,将迁移成本压缩至最低。基于这套生态,国地中心团队仅用半小时完成环境配置,OpenLoong 框架及全部依赖一次性通过原生编译,无需源码级适配。Sim2Real环境搭建从通常的数周压缩至半天。

半程马拉松对端侧运控构成极限压测:长时热稳定性、数十万次伺服周期的 P99.9 延迟、多域协同鲁棒性、真实路面策略泛化——K3 全程表现稳定,从首次联调到完赛验证,总计仅用 3 个月。

K3 的未来展望:从运控小脑到具身大脑

本次半马实战不仅验证了 K3 在端侧低延迟运控场景下的极致工程可靠性,同时为上层决策能力的持续落地预留了充沛的算力冗余与丰富的标准化系统接口。

未来,进迭时空将与国地中心持续深化协作,推进端侧视觉-语言联合理解与多智能体协同能力的部署。随着 K 系列芯片在能效比、AI 算力密度与多域协同能力上的持续迭代,基于 RISC-V 架构的开放、高效、可扩展的具身智能算力底座,正从愿景走向现实。

21.0975公里,是人形机器人的里程碑,也是 RISC-V 的新起点。

]]> 人工智能 https://www.leiphone.com/category/ai/Dwb8f1Vzvx72ToZg.html#comments Wed, 22 Apr 2026 14:15:00 +0800 独家 | 华为19级天才少年赵立晨离职创业,瞄准具身 Agentic OS https://www.leiphone.com/category/ai/LRln809LoBLe0IQE.html

雷峰网独家获悉,前华为天才少年、19 级技术专家赵立晨已于2026年3月离职,加入杭州拉格朗日具身技术有限公司。拉格朗日走的是一条区别于其他具身公司的差异化路线,聚焦于具身智能架构研发(Agentic OS)与硬件规模化落地,试图在具身智能最关键、也最难的一层建立优势。


01

赵立晨是谁

据公开信息显示,赵立晨本科、硕士均就读于北航软件工程,长期聚焦 3D 视觉与多模态,相关工作累计引用超过千次,是北航目前唯一入选华为天才少年计划的学生。

本科阶段,他两次斩获 ACM-ICPC 东亚区决赛金牌;2021 年,他在商汤参与 INTERN 20B 大模型预训练,属于国内最早一批大规模预训练实践。

作为天才少年计划中极少见的校招硕士,赵立晨 2023 年进入华为后,从零搭建起一支 20 多人的团队。他曾获得华为算法大赛亚军,主导 AI 智家宝 Agent 端云架构持续迭代,相关项目斩获中国电信卓越创新奖,并将于 2026 年下半年迎来大规模量产。

凭借突出的技术与交付能力,赵立晨在两年多时间内进入 19 级晋升通道,成为华为最年轻的技术高管之一,也是业内少有的算法、架构、工程落地全栈型技术专家。


02

Agentic OS,具身产业化的基础设施

赵立晨想做的 Agentic OS,本质上是一套面向物理世界智能体的软件中枢与系统工程框架。一些观点认为,具身智能当前卡住的地方,不在于“再来一个更大的模型”,而在于“系统跑不起来,也跑不稳”。这正是 Agentic OS 这一层存在的原因。

今天的大模型已经能理解任务、生成步骤,甚至给出控制策略,但这些输出还不能直接在真实机器人上长期稳定运行。模型与真实执行之间,仍缺少一层足够稳定的系统能力。

Agentic OS 的目标不是跑通一个 Demo,而是交付一套可运维的系统。它的价值不在于替代现有 VLA、VLM、世界模型等能力模块,而在于把这些分散能力组织成一个可部署、可运维、可持续演进的系统。在工业等复杂场景中,这种系统层能力,往往才是具身智能从展示走向产业化的关键。(雷峰网)


]]> 人工智能 https://www.leiphone.com/category/ai/LRln809LoBLe0IQE.html#comments Wed, 22 Apr 2026 12:55:00 +0800 独家 | CMU系⼜诞⽣⼀家具⾝智能公司「Zeno AI」 https://www.leiphone.com/category/ai/1nhMutPVpt02CG71.html 雷峰网独家获悉,卡内基梅隆⼤学机器⼈研究院(CMURI)博⼠后、悉尼⼤学(USYD)⻓聘助理教授WilliamZhi联合创办具⾝智能公司⸺ZenoAI(芝诺机器⼈),致⼒于打造通⽤全栈物理智能(Full-stackPhysicalAI),提供可靠的全⾝灵巧操作解决⽅案。

CMURI是全球最顶级的机器⼈研究机构之⼀,在具⾝智能⽅向范式演进的进程中直接催⽣了⼀批明星公司与领军⼈物,例如:DeepakPathak(SkildAI)、SebastianScherer(FieldAI)、XianZhou(GenesisAI)、ChrisUrmson(Aurora)、ChrisAtkeson、HowieChoset、GuanyaShi 等。

ZenoAI成⽴于2025年6⽉,总部位于杭州,在悉尼设有研发中⼼。团队成员来⾃卡内基梅隆⼤学、浙江⼤学、悉尼⼤学、伊利诺伊⼤学厄巴纳-⾹槟分校等国内外顶尖⾼校,且均为95后,展现出强⼤的创新活⼒。

与当前多数具⾝公司不同,ZenoAI⾃创业之初选择⾛差异化技术路线:

▎全⾝协同运动的端对端模型

坚持采⽤全⾝控制的⼀体化架构,打破了传统感知、移动与操作割裂的范式。通过统⼀模型协调机器⼈的底盘位姿调整与上肢精细操作,使机器⼈在复杂任务中展现出更强的全⾝协调性、动作连贯性与动态稳定性。

▎第三⼈称视⻆视频学习路径

开发了从海量第三⼈称视⻆视频中提取⾏为先验的预训练⽅法,以缓解数据稀缺这⼀核⼼瓶颈。机器⼈⾸先通过⼈类动作学习通⽤的物理直觉与任务结构,再结合少量但⾼质量的机器⼈⽰范进⾏⾼效后训练,从⽽显著提升技能获取效率与泛化能⼒。

▎在部署中⾃省、求助与持续改进

强调机器⼈在真实部署中的持续进化,使得机器⼈在执⾏过程中主动识别⾃⾝能⼒边界,在不确定或失败⻛险升⾼时进⾏⾃省并及时请求帮助,同时利⽤部署中的反馈不断修正与更新策略,从⽽在真实环境中实现更可靠的⻓期提升。

作为ZenoAI的联合创始⼈&⾸席科学家,William Zhi教授是⼀位95后⻘年学者,拥有顶尖的机器⼈学术履历:

▪ 博士毕业于悉尼大学计算机科学学院并获得杰出论文奖,师从 Fabio Ramos(英伟达首席研究科学家),并与Lionel Ott(Autonomous Systems Lab,ETH Zürich)长期合作,专注解决机器人感知与运动生成问题;

▪ 博士期间在英伟达西雅图机器人实验室(NVIDIA Seattle Robotics Lab)进行具身智能研究,在时任实验室主任 Dieter Fox (华盛顿大学)的领导下,与 Nathan Ratliff (Director of Robotic Systems)、Tucker Hermans (犹他大学)紧密合作,开展机器人灵巧操作研究;

▪ 以 Postdoctoral Fellow 身份加入卡内基梅隆大学机器人研究院(CMU RI) Matthew Johnson-Roberson(时任 CMU RI 院长)团队,后与 Matt 教授加入范德堡大学(Vanderbilt)共同建设 College of Connected Computing,担任 Visiting Faculty。

沿着这条学术路径,William 一直处在具身智能赛道最前沿的科研核心圈。对于一家新成立的具身智能公司而言,背后所连接的人才网络与方法论资源,往往比单点明星履历更为重要。

2026年初,William 正式入职悉尼大学计算机科学学院担任长聘助理教授,成立Physical AI and Robotics Lab 并在澳大利亚机器人中心(ACFR)开展真实世界具身机器人前沿技术研究与场景落地,担任ICRA 2026和RSS 2026的AE、AC。在 PhD 和 Postdoc 期间发表40余篇机器人顶会和顶刊论文,并获得L4DC Best Paper(Learning-based Control 顶会)、RSS Pioneer(全球最顶尖机器人学者 Early Career 奖项)等荣誉,在担任教职带领团队之前有如此科研产出,在同龄研究者中极为罕见。

从现有公开线索来看,Zeno AI 已经具备几个典型的早期特征:国际化研究与产业背景、差异化技术与落地叙事以及中澳双节点快速布局。(雷峰网)

随着PhysicalIntelligence、SkildAI、Figure等国际巨头加速布局,国内它⽯智航、千寻、星海图等企业接连获得⼤额融资,具⾝智能正从实验室⾛向商业落地。ZenoAI凭借其独特的技术路径和海外市场策略,能否在这⽚蓝海中开辟新航道?让我们拭⽬以待。


]]> 人工智能 https://www.leiphone.com/category/ai/1nhMutPVpt02CG71.html#comments Wed, 22 Apr 2026 12:45:00 +0800 蚂蚁技术研究院副院长吕乐当选美国医学与生物工程院(AIMBE)Fellow https://www.leiphone.com/category/ai/p9I1luhTnfcQURAm.html

美国医学与生物工程院(American Institute for Medical and Biological Engineering,简称AIMBE)近日公布2026届 Fellow 入选名单,蚂蚁集团技术研究院副院长,蚂蚁健康医疗AI实验室主任吕乐博士当选。

据AIMBE官方新闻稿,吕乐博士的当选理由是"对放射学和肿瘤学新技术、开放影像数据集及临床产品的杰出贡献"(for outstanding contributions to the development of novel techniques, open imaging datasets and clinical products of radiology and oncology)。

AIMBE 成立于1991年,是医学与生物工程领域最具权威性的学术机构之一,该机构的 Fellow 评选被视为该领域最高专业荣誉之一,仅授予全球范围内前2%的顶尖工程师和科学家。历届 AIMBE Fellow 中包括4位诺贝尔奖得主、27位美国总统科学/技术与创新奖章获得者,以及数百位美国国家工程院、医学院和科学院院士。本届 Fellow 共有175位来自学术界、工业界、临床实践及政府机构的杰出人士当选,代表超过35个国家。

吕乐博士现任蚂蚁集团技术研究院副院长、蚂蚁健康医疗AI实验室主任。他于2007年获得美国约翰霍普金斯大学计算机系哲学博士学位。在攻读博士期间,他曾在微软研究院北京和雷德蒙(Redmond)工作两年,师从沈向洋、Kentaro Toyama及Paul Viola。在2025年6月加入蚂蚁集团前,他曾任阿里巴巴集团达摩院医疗AI团队负责人、NVIDIA医疗AI部门创始人及高级研究经理、美国国立卫生研究院(NIH)临床中心资深研究科学家、西门子美国研究院资深科学家等职务。

吕乐于2021年因为癌症检测与诊断方面的突出贡献当选IEEE Fellow,是医学影像分析领域论文被引用次数最高的研究者之一。他在医疗AI领域的贡献包括:主导开发全球首个大规模胸部X光数据集ChestXray14(含11万张影像)和通用病变检测数据集DeepLesion,推动深度学习在医学影像从实验室走向临床(美国专利60余项,中国专利百余项,培养的博士后和学生过的MICCAI 2018年5年最有影响力论文奖,MICCAI 2017/2025青年科学家奖获选,北美放射学年会2016-2020年四次最佳论文奖,亚洲超声学年会2021年银质青年科学家奖)。在达摩院期间也带领团队多次实现了世界上第一次的临床医学人工智能突破性的进展。

近期,吕乐博士曾参与雷峰网AI科技评论近期举办的 GAIR Live 024 圆桌论坛。他在会上提出了价值分配原则:“如果AI为社会创造了100块钱的价值,应该让病人拿走98块,我们开发者分剩下的2块。” 他进一步强调,AI好不好的标准是看它能不能“进临床指南”:目前的医疗服务由于人力限制,往往是断裂的,尤其是术后随访和治疗前/治疗中多学科会诊。因此AI的终极价值不在于取代医生,而在于“生产出低成本、但是(超)高质量的新的,而且医生可以驾驭的先进医疗生产力”,从而实现以病人为核心的精准医疗。

]]> 人工智能 https://www.leiphone.com/category/ai/p9I1luhTnfcQURAm.html#comments Tue, 21 Apr 2026 14:37:00 +0800 解决机器人散热困境,华科冷芯高速悬浮泵液冷方案助力荣耀人形机器人“闪电”夺冠 https://www.leiphone.com/category/ai/8c0LRtFiKS4clo08.html

4月19日,2026年北京亦庄半程马拉松暨人形机器人半程马拉松正式鸣枪开跑,搭载华科冷芯高速悬浮泵的荣耀人形机器人“闪电”凭借50分26秒(净用时)的成绩(人类半程马拉松世界纪录‌为‌56分42秒)获得冠军。而在此前4月11日晚的半程马拉松全流程测试中,荣耀人形机器人“闪电”机也凭借优异的性能夺得夜测冠军。(雷峰网)

这场“速度与耐力”的较量,不仅是对人形机器人运动能力的检验,更是对其持续高性能输出能力的极限挑战。而在众多技术突破中,散热系统的升级成为决定比赛成败的关键因素之一。

液冷成人形机器人“散热困境”最优解,水泵是核心

人形机器人要实现持续高速奔跑,面临的核心难题是下肢关节电机的散热挑战。高负载奔跑要求高扭矩输出,同时也产生大量热量,相当于一个小型“火炉”。而一旦电机温度超过安全阈值,可能导致控制器烧毁、永磁体退磁、绕组绝缘损坏等永久性故障。因此,机器人往往会设置保护机制,为保护电机,系统也会自动降低输出功率,导致机器人“体力不支”、速度下降甚至停止运行。

传统风冷散热效率有限,难以满足高功率密度电机的散热需求,液冷散热技术被公认为当前最有效的方案,散热效率可达风冷的10~50倍,能将核心温度从100°C降至60°C以下,保障高负载稳定运行。

典型的机器人液冷散热模组由液冷环、微泵、水冷散热器及相关管路组成,关节电机产生的热量经由液冷环传递至循环液体,再传递至水冷散热器最终散出。其中,微泵起到提供动力的作用。

作为液冷散热系统核心的微型水泵,需要满足人形机器人的三大严苛要求。一方面是高性能,要求该微型水泵能提供足够流量和扬程,克服复杂管路流动阻力要求,以实现小尺寸下的大功率输出,应对关节模组功率超2kW的挑战。另一方面,机器人小体积轻量化则要求水泵具备更小的尺寸和更轻的重量,便于整机堆叠集成,有助于外观美观。具体到参数上,场景尺寸约束要求可达50mm以内,空间极度有限。此外,长时间运动带来的频繁震动,易导致机械故障,若意外跌倒更会带来超200G以上的冲击,对水泵在运行状态下的抗冲击能力要求高。

华科冷芯HD01高速悬浮泵,同时具备高性能、小尺寸、高可靠

人形机器人长期连续工作的散热挑战主要来自于下肢高爆发扭矩关节模组。华科冷芯基于液磁耦合悬浮技术,研发出HD01系列高速悬浮泵,实现转子全自由度无接触悬浮,彻底消除机械摩擦。在性能方面,高速悬浮泵具备大于2万转的极高转速,高于常规方案3-6倍。流量可达6L/min,完全满足下肢关节电机模组散热所需,同时扬程达18m,可有效克服复杂管路阻力。在体积方面,可做到30mm量级大小,可轻松集成于机器人内部,且重量不到100g,对机器人负重影响微乎其微。在抗冲击方面,高速悬浮泵具备独特的冲击耗散结构,在运行状态下可耐受500G冲击测试,从容应对高强度震动和意外摔倒情况,泵体不停转、不损坏,保障散热系统持续稳定运行。真正实现了“小尺寸、大性能、高可靠”的三重突破。

华科冷芯的悬浮微泵技术来源于华中科技大学知识成果转化,自产业化以来,陆续在AIDC、商业航天、具身智能等领域布局应用。

在AIDC算力基础设施领域,面向下一代算力芯片性能提升带来的散热需求增加,华科冷芯研发的数据中心悬浮水泵也取得关键进展,并与多家液冷系统集成商开展联合测试,为下一代算力平台液冷基础设施建设提供关键核心部件支持。

在商业航天领域,高速悬浮微泵已随卫星热控系统在轨稳定运行超过12个月,在轨运行期间零失效、零异常停机,实现高可靠流体驱动单元在航天热控系统中的实际闭环应用。

目前,华科冷芯已完成首期悬浮微泵量产线搭建,形成多条标准化装配与测试产线,具备月产数千至万级交付能力,可稳定支撑从研发验证到批量导入的客户需求。

从荣耀人形机器人的出色表现,到AIDC、商业航天客户案例,华科冷芯HD01高速悬浮泵正以其小尺寸、大性能、高可靠的核心优势,助力客户产品实现更强爆发、更高性能、更高集成和更长连续工作,为产业发展注入科技创新的新动力。(雷峰网)


]]> 人工智能 https://www.leiphone.com/category/ai/8c0LRtFiKS4clo08.html#comments Mon, 20 Apr 2026 11:48:00 +0800 智象未来完成新一轮融资,全力打造下一代原生全模态世界模型 https://www.leiphone.com/category/ai/HPQegPF11KQhQ2jq.html 近日,国内多模态生成式人工智能公司智象未来(HiDream.ai)宣布完成超5亿元新一轮融资。本轮融资由东方富海、安徽省投资集团旗下的省产业投资公司、峰华资本等新股东联合投资,同时合肥产投、兴泰集团、合肥高投、安徽省人工智能母基金等老股东持续加注。

本轮融资将主要用于智象独创的下一代原生全模态世界模型研发、企业服务智能体的产品建设以及全球市场拓展。在AI视频生成技术与具身智能等新兴科技领域加速融合、共同构建世界模型的背景下,此次融资也意味着资本市场对公司领先的底层大模型技术、创新的产品化能力与前瞻的战略生态布局的进一步认可。

 领先的大模型技术

作为专注于AIGC领域研发超过10年的全球顶尖技术团队,智象始终引领着大模型技术的演进,坚持以底层创新驱动公司不断实现超越式发展。

智象的模型能力已多次在国际主流评测体系中获得权威验证:此前,公司开源图像生成模型HiDream-I1在权威评测平台Artificial Analysis榜单中于上线后24小时内迅速登顶,成为首个在该榜单取得领先位置的中国自研生成式视觉模型;同时,公司旗下的图像编辑模型HiDream-E1.1也进入Artificial Analysis图像编辑智能体第一梯队,并在多项指标上超过Flux.1 Kontext等主流模型。相关开源模型目前在全球社区下载量已超过200万次,被誉为图片模型领域的DeepSeek,也被视为中国开源图像模型进入全球第一梯队的重要标志。此外,智象早在2024年5月便上线了全球首个开放使用的视频生成DiT(Diffusion Transformer)架构模型,并即将发布分钟级长视频音画同步模型。

领先技术成绩的背后,是智象持续专注于底层模型架构创新。作为国内最早布局多模态大模型的团队之一,公司率先发布了基于DiT架构的产品vivago.ai,并在全球首次推出全新的“扩散自回归”(Diffusion + AR)模型架构,与单一生成路径相比,这一范式更强调性能和效率的极致平衡,在生成质量、时序一致性和可控性上不断突破行业标准上限。

在智象看来,下一代大模型竞争的重点在于能否以统一架构对真实物理世界进行“原生性”和“全模态”的统一建模,而非单独通过视频生成模拟物理世界。基于这一判断,公司将全力打造独创的“原生全模态世界模型”底座:它并非简单叠加图像、视频、语音或文本能力,而是围绕真实世界的表达、理解与生成,构建同时具备全模态表达、因果推演与物理世界构建三大核心能力的新一代世界模型,从而更好地支持图像/视频生成、交互视频、具身智能应用等技术场景。

创新的AIGC应用落地

自创立以来,智象始终围绕商业化落地构建模型与应用的双轮驱动模式,持续推动多模态模型能力向实际业务场景转化。截至2026年第一季度,产品已覆盖全球超3000万专业用户及4万余家企业客户,形成了从技术研发到产品商业化的闭环。

目前,智象已经构建起“1+1+3”的商业化全景:即以1个HiDream系列大模型为底座,构建1个Token Hub平台提供标准化模型能力输出,并在此之上围绕商业营销、影视创作、社媒内容创作三大场景实现AIGC产品创新。据悉,智象多条业务线已取得高速增长,今年第一季度营收已经超过去年全年。

在AIGC商业营销领域,智象针对国内外中小商家的需求,形成同时覆盖线上跨境电商短视频营销与线下营销的一体化产品能力。商业短视频内容生成与管理平台HiBurst主要为平台商家解决营销内容创意不足、素材生产效率低以及跨平台适配成本高等问题提供智能化工具与方案。HiBurst已覆盖电商营销、媒体运营和应用出海等场景,支持TikTok、Meta、抖音、小红书等主流平台,并成为TikTok官方前五大AI合作伙伴之一,为客户提供除工具外的RaaS(Result as a Service)素材交付服务,以创新的分佣模式与客户共同获得快速业绩增长。同时,智象软硬一体化的智能营销终端HiFans已赋能全国超万家实体店铺,在国内率先打通了从线上短视频智能生成到线下实体运营的闭环链路。

在AIGC影视创作领域,智象在本月正式发布全球首个专业级AI影视创作协作智能体——“帧赞”。作为国内首批AIGC影视制作探索与推动者,基于智象多年深耕于AI影视产业的经验积淀,帧赞依托自研多模态大模型,以电影级画质生成和“创意-分镜-成片”全流程打通的核心能力,为专业影视创作团队提供了兼顾高品质和高效率的协作创作工具。目前智象已累计制作短漫剧超过5000分钟,平台入驻专业团队与生态合作伙伴近千家,并与湖北长江电影集团、慈文传媒、华视网聚等头部影视机构达成战略合作。

在AIGC社媒创作领域,面向专业创作者,智象专门打造了具有一站式AI Agent创作能力的OPC创作工具vivago.ai。通过自研3D video模型+推理加速,vivago将特效生成从分钟级提速到秒级,丝滑的体验效果大大受到众多创作者的喜爱,从而创下单款特效单月内新增用户量突破千万的爆款纪录,持续验证了产品创新能力与商业化潜力。目前vivago已覆盖3000万专业个人用户并拥有百万级付费用户。

 前瞻的生态战略布局

立足大模型生成技术优势,智象始终坚持以开放、协同、共赢为生态合作理念,广泛链接人工智能产业上下游伙伴,通过与算力基础设施厂商、顶尖科研机构和行业龙头企业的深度战略协作,构建起横跨算力支撑、模型训练、数据生产、场景应用的完整生态闭环,实现了“技术自研 + 生态共建”的双轮驱动增长模式。

为推动全模态世界模型的构建与生态开放,智象联合国内头部云厂商、算力基础设施企业和主流通用大模型厂商,共同打造HiHarness平台,构建起了“算力+模型+工具”一体化的AI开发与应用生态。在企业级API服务方面,HiHarness平台立足于智象自研多模态大模型,并依托HiDream Token Hub接入全球主流生态大模型,实现统一调度与融合调用。Token Hub平台为企业提供了“一键集成”全球领先大模型能力的同时,持续优化推理成本,确保企业以极低的价格获得高性能的AI服务。作为智象生态的核心枢纽,HiHarness打通了模型训练、推理、部署全流程,更通过创新的Skills(技能)体系,将企业行业经验、标准作业流程封装为可复用的智能体能力单元,让AI能够自主执行复杂任务,大幅降低AI技术应用门槛。

智象既能为各行业提供快速构建高性能、可扩展、开箱即用的AIGC企业级API服务,同时也面向企业提供私有化部署能力,通过一站式性能优化、部署与运维体系,为内容创作、影视创作、跨境商贸等多样化场景提供稳定、高效的大模型 + 智能体服务。

以全模态世界模型的建设为纽带,以Token Hub为一体化调用平台,智象正致力于将视觉生成等多模态技术与具身智能、微观模拟等前沿技术深度融合,打通从宏观世界到微观分子、从虚拟生成到真实交互的物理AI应用,形成差异化的前瞻生态竞争力。

 -具身智能生态:携手诺亦腾机器人,破解数据瓶颈,共筑具身智能新范式

在具身智能领域,智象已经与诺亦腾机器人(Noitom Robotics)等具身智能领先企业陆续达成战略合作,共同开创“真实数据 + 生成式视频数据”融合的全新数据生产范式。高可用的训练数据是目前发展迅猛的具身智能产业的瓶颈。在具身智能多模态数据采集过程中,各类光学、惯性动作捕捉系统以及触觉采集装置的穿戴会对人体形态、遮挡关系和整体视觉分布产生干扰,形成明显的「Vision Gap」。通过引入智象的世界模型视频生成技术,有望为具身智能训练数据生产带来新突破。此外,双方还将围绕以视频生成与动作预测协同驱动的世界模型展开全方位的深度合作。

-生命科学生态:联合百图生科,聚焦虚拟细胞等微观世界模型构建,赋能生物医药创新

在生命科学前沿领域,智象与百图生科(BioMap)深度协同,聚焦虚拟细胞等关键方向,推动微观世界模型的构建与演进。BioMap百图生科是生命科学基础大模型的全球领跑者,其2680亿参数生命科学基础大模型xTrimo,已在20余个生命科学细分领域的300余个预测任务中取得了SOTA表现,并获得首届世界虚拟细胞挑战赛总冠军等荣誉;智象则发挥全模态模型生成技术及图像数据优势,双方合作突破传统数据获取瓶颈,利用跨物种、多模态、多尺度数据,为药物研发、生物制造、基础科研、医疗健康等领域提供高效虚拟实验与计算平台,大幅缩短研发周期、降低成本,赋能生物医药创新。

智象未来创始人兼CEO梅涛博士表示:“过去,我们不仅通过大模型技术底层架构上的创新,始终保持在多模态大模型的全球第一梯队,同时也通过在AI营销、AI影视和AI专业创作三大业务场景的商业化落地,验证了企业服务的商业模式。基于对AI技术与应用的前瞻性预测,我们认为视频生成只是多模态大模型应用的起点,智象未来将致力于从多模态走向全模态,构建独创的原生全模态世界模型技术路线,持续深化与3D交互、具身智能等全新产业领域的战略合作,从而实现让智能服务人类、创造美好未来的愿景。”

东方富海合伙人王兵表示:“东方富海长期坚定看好大模型赛道的战略价值与长期发展潜力。智象未来在多模态大模型领域已实现持续迭代与技术突破,展现出全球领先的创新能力与前瞻性布局。我们将以长期资本加持与产业生态协同,全方位支持智象未来打造具有独创性的全模态世界模型,助力其在数字世界与物理世界之间搭建统一的原生底层架构。智象未来在技术创新深度与商业落地效率上均表现突出,是兼具硬核技术实力与产业落地能力的优质团队。我们持续看好公司作为新一代世界模型领域的核心参与者与引领者,期待其在技术突破与产业应用上不断实现新跨越。”

安徽省投资集团旗下的省产业投资公司相关负责人表示:“安徽省产投始终坚持服务国家战略和区域产业发展大局,持续关注人工智能等战略性新兴产业的发展机遇,积极支持关键核心技术攻关和高成长性科技企业培育。智象未来深耕通用大模型技术领域,围绕图像、视频、具身智能等关键领域持续推进大模型技术创新和能力迭代,已形成较强的技术积累和产业落地能力,在行业内展现出领先的发展潜力和竞争壁垒。我们将持续发挥省级产业投资平台赋能新兴产业的引育作用,长周期、可持续、有耐心地支持智象未来的发展。”

峰华资本相关负责人表示:“作为新兴产业资本,峰华聚焦关注AI新兴产业的投资与发展,我们聚集了国产AI算力、国内服饰龙头等投资组合和产业资源,并依托中辉集团、海澜之家、鄂尔多斯、天数智芯等众多集团产业生态资源,未来将持续为智象未来提供跨境商贸、服装产业智能化、算力基础设施等全方位的生态支持。”

合肥产投相关负责人表示:“合肥产投集团围绕安徽人工智能先导区高质量发展目标进行投资布局,抢抓AI战略新兴产业投资机会,持续推动金融资源精准赋能人工智能产业,助力合肥市打造具有全球影响力的人工智能科技创新策源地。智象未来专注通用大模型研发创新,技术迭代与商业化推进迅速,发展方向深度契合我市“人工智能+”产业链布局。本次对其持续投资,将依托市级投资平台的资源优势,以“耐心资本”助力智象未来技术与产品在工业、文化、传媒等领域落地应用。”

]]> 人工智能 https://www.leiphone.com/category/ai/HPQegPF11KQhQ2jq.html#comments Thu, 16 Apr 2026 14:01:00 +0800 做了5年3D打印机,我发现了世界模型的Scaling Law https://www.leiphone.com/category/ai/SjJFJkVt2aQjt3XC.html 2026年初,英伟达CEO黄仁勋在 CES 上喊出"物理AI是第二个拐点"后,世界模型(World Model)成了全球科技巨头的必争之地。

但在这之前,学术界就有很多学者已经意识到, AI 必须理解物理世界的常识,才能真正服务于人类。但随着AI 教母李飞飞,Meta前首席AI科学家、图灵奖得主杨立昆等大佬纷纷投入这一领域,大家逐渐意识到,这是一个比大语言模型更底层、也更难啃的赛道。

当我们在国内寻找这条赛道上的学者和公司时,陈天润进入了我们的视野。

这位2000年出生的在读博士生,在2022年创立魔芯科技,用3D打印机完成从0到1的验证后,于2024年全面转型空间智能。

“造小家电的”、“ 3C产品创业出身”…… 在对谈中,这位00后对自己的介绍极度克制。但实际上,他不仅是一家“估值数十亿”的世界模型领域公司CEO,还是潘云鹤院士的弟子。

不久前,魔芯科技凭借着空间智能与世界模型方面的突破,顺利拿到了华为、联想等巨头联手的数亿元融资,如今,他们对自己的定位是空间智能的基础设施服务商。

在这次对谈里,陈天润一边输出空间智能相关的技术性话题,一边从创业者角度跟我们分享他在商业化方面如何将一秒钟视频生成成本控制在一毛钱以内。

在3D打印的"修罗场"里被卷了五年,我们能看到他拼杀出来的商业化能力,对比很多AI公司,虽然科研很强,但不知道怎么把技术变成产品、怎么控制成本、怎么在供应链里活下来。陈天润的经历和经验值得被挖掘,于是有了这次对话。

以下是陈天润与AI科技评论的对话,AI科技评论作了不改变原意的编辑:

01

造小家电的过程中,意外发现了空间智能的Scaling Law

AI科技评论:外界对魔芯科技的认知还停留在3D打印机,你们这次突然宣布拿到亿元融资,是因为什么?

陈天润:我们之前3D打印机做得不错,在持续研发与研究的过程中,洞察到了空间智能的Scaling Law(规模定律),看到了一条走向高泛化、高通用、可交互、高精度世界模型的路径。

AI科技评论:这项研究成果是什么时候发现的?

陈天润:2024年底,我们在研究3D AI建模时,测试某个网络结构,发现它不仅能把物体生成得很好,空间也能做。而且数据喂得越多,空间重建效果越好,精度和一致性都更好。

这让我们意识到:空间建模可能存在某种Scaling Law。就像大语言模型直到ChatGPT才证明"数据越多效果越好",在3D领域,过去大家先构建中间表示,也就是类似知识图谱的东西,再生成结果。比如李飞飞的World Labs等,会选择先构建全景图或者先建3D高斯,再用这个去做下游任务。但我们发现,如果去掉这个中间环节,直接端到端训练,模型反而学得更好。

AI科技评论:是什么数据在驱动这个意外发现?

陈天润:3D原生数据,比如图片与3D信息的配对,加上文本描述。我们有个数据团队在专门采集,雇了大量人员在采数据,就跟很多机器人公司雇人采数据一样。

AI科技评论:意思是合成数据和真实数据都用,那比例呢?

陈天润:这里有个"配方"问题。真实数据提供泛化性,但它不准;合成数据准,但不泛化,遇到新场景就得改。我们得像厨师一样调配这个比例,不同训练阶段配方还不一样。

AI科技评论:输血业务一会聊,先说说数据采集成本吧,不少投资人关注这个话题。

陈天润:中国在这方面有成本优势。并且这跟具身智能公司采的数据不完全一样,有重叠部分,也有我们独特的部分。因为最终要服务具身智能场景,所以也会采那些机器人需要的数据。

AI科技评论:你们的世界模型,和市面上其他方案有什么区别?

陈天润:我们是国内首个基于全国产算力(华为昇腾910C)的数分钟级交互式世界模型KOKONI-World。很多行业头部公司的架构,会出现数据喂多效果未必更好的情况。但我们的架构是端到端的,数据规模上去后,空间理解能力会持续提升。

更重要的是模型的可部署性。现在大部分世界模型跑实时视频生成需要10张A100,不可能上到车端。我们能在端侧NPU(比如瑞芯微、地平线芯片)上跑,模型规模压缩到1-2B,不需要背个4090显卡在机器人身上——有些公司宣称端侧部署,结果却是背张显卡。


02

空间智能的战场,在科研也在产业

AI科技评论:端侧VLA的商业场景是什么?

陈天润:两条线。一是具身智能,每个和真实世界交互的终端都应该具备空间智能的感知和理解能力,这个目的是让机器人"看得懂也走得准"。

二是自动驾驶,我们正在跟一些厂商合作,最晚明年就能有我们的模型批量部署。现在的世界模型大多被当成"数据生成器"用,因为跑得太慢。我们能实时跑,就可以直接集成到在线系统里——边感知、边推理、边决策。这是我们觉得非常适合世界模型的应用场景。

AI科技评论:车企怎么评价你们的技术?他们之前用的都是大算力芯片方案。

陈天润:我有个观察,大算力芯片在车上永远有局限。单颗芯片再大,也搞不定10张A100的算力需求。我们的方案是在端侧用相对不错的NPU,让模型能够给现有的系统带来“增加一个传感器”一样的增益。

03

"消费电子的创业经历,教会我们什么叫效率"

AI科技评论:你们从3D打印转型,团队架构怎么调整?

陈天润:打印机业务我们还在做,市场快速增长,但对于我们的转型来说重要性下降了。但消费电子产品的研发、生产制造等经验,对现在特别有帮助。

AI公司很少有干过消费电子的,那是个卷得要命的行业——成本控制、流程控制、项目进度控制、生产进度控制,全有讲究。我们被卷了五年,组织效率被"卷"出来了。现在做世界模型,也用这套方法论:快速迭代、质量控制、工程落地,这也显得我们和其他AI公司不一样的基因和效率。

AI科技评论:具体怎么体现这种效率优势?

陈天润:如果从科研直接下场,那团队就没经历过残酷的商业拷打。我们经历过:2022年就在小米渠道卖3D打印机,众筹600多万,但友商出来后,一切变了——他们研发投入带来的产品代差,直接把市场卷飞了。

这种"被卷过"的经历,让我知道什么叫真正的商业化闭环。现在来做AI赛道,如果手里没业务,我会很慌。我觉得AI或者说世界模型这个领域还是离不开基本商业逻辑,公司的业务可以设置和投资人沟通的"市场部",也可以留出学术探索空间,但无论如何,要保证在产业里干活,才会让我感到踏实。

AI科技评论:拓竹属于行业中的“卷王”?

陈天润:拓竹做出了足够好的产品,就像戴森用核心技术构建了壁垒,聪明的中国人后面会火速跟进,但第一波冲击扛不住。

AI科技评论:你们可以做“徕芬”啊。

陈天润: 我们一度是3D打印领域的"徕芬"(国产吹风机品牌),更卷的那种。我现在保留了3D打印机的业务。但更重要的是,我们在做“高速吹风机”的过程中,发现了怎么造“行星发动机”(高速电机的核心研发配件,编者注)

AI科技评论:打印机业务还在公司内部吗?(雷峰网)

陈天润:现金流业务,我们仍然在为客户提供更多更具性价比的3D打印机选择。

04

“一秒钟一毛钱”的商业化逻辑

AI科技评论:你说你们现在有不少影视娱乐的业务,这和你说的"主航道是世界模型"似乎有落差。

陈天润:世界模型是基座、是能力,影视娱乐只是实际应用的一种。影视娱乐是"杀鸡用牛刀",但能快速验证模型能力、产生现金流。我们把古画变3D、做AI短剧、文旅项目的沉浸式体验,一秒钟视频成本不到一毛钱,一分钟也就六块钱,传统影视特效做不到这个价。

AI科技评论:为什么这么便宜?

陈天润:因为空间模型将推理步骤在空间中而不是在语言模型中完成,架构的特性导致算力消耗小;另外在国产信创的趋势下,3D渲染、机器人仿真,我们有可以交付的方案。

AI科技评论:还有其他应用吗?(雷峰网)

陈天润:今年晚些时候会有手机终端发布我们的功能。我们真正的想象力在更大的场景:让空间智能成为基础设施,就像DeepSeek是通用基座,上面可以长出医疗大模型、政务大模型。我们的基座能长出端侧VLA、自动驾驶感知、实时3D重建各种应用。

AI科技评论:但你之前说具身智能和自动驾驶都还没真正落地。

陈天润:对,所以我们现在一边疯狂Scaling基础模型,一边用娱乐应用养现金流。乐观地看,在今明两年的时间就会有我们的空间模型算法在具身和智驾系统中落地。

AI科技评论:2026年世界模型会迎来"GPT时刻"吗?

陈天润:学术研究会持续推进,产业落地我不确定。对我们来说,会尽快让更多场景用上我们的模型能力,不管是早期的娱乐应用,还是终局的具身智能、自动驾驶。

学术还是得跟实际产业结合,不能空中楼阁。 这是我们和很多AI公司的区别:我们有打印机业务练出来的商业化能力,知道怎么控制成本、怎么量产、怎么在消费电子的修罗场里活下来。这种"被卷过"的经历,现在反而成了优势。

05

一位00后CEO眼里的行业现状

AI科技评论:你怎么评价现在具身智能领域的创业热潮?

陈天润:热闹。 很多公司堆估值、堆融资。

AI科技评论:怎么看国内世界模型赛道的竞争格局?

陈天润:我感觉中美在这个赛道,有个明显的区别,美国那边,投资人愿意花钱买一张"通往AGI的门票"。

国内大家更保守,更愿意等类似大模型里的"GPT时刻"这样的确定路径出现,但现在世界模型的"Transformer"还没出现,所以大家都在观望。我们在疯狂Scaling,手上的资源和数据都在加码,无论如何,我们愿意尝试。

AI科技评论:如果英伟达明天开源一个更强悍的世界模型,你们怎么办?

陈天润:垂直场景深耕。 我们有他们不具备的优势:全国产算力适配、端侧部署能力、消费电子的工程化经验。Cosmos很好,但它跑在英伟达卡上,在中国车企那里未必好用。我们可以做"中国版Cosmos",并且这部分我们已经在做了,近期工作会开源。


]]> 人工智能 https://www.leiphone.com/category/ai/SjJFJkVt2aQjt3XC.html#comments Tue, 14 Apr 2026 10:41:00 +0800 首个跑通端到端闭环的全模态安全脱敏的龙虾盒子,无问芯穹InfiniClaw Box让本地龙虾也能放心用! https://www.leiphone.com/category/ai/YZNs5Y6LrKuanvgg.html OpenClaw热潮中,云端隐私数据保护的缺位,已成为不容忽视的安全隐患。也许上一秒刚给 OpenClaw 输入了一段公司的财务数据,下一秒这条信息就已出现在云端。

当下,“安全养龙虾”的期待正加速向本地终端汇聚,但端侧盒子的有限算力,难以高效支撑复杂任务在本地的安全执行;而现有的终端脱敏方案,也往往只覆盖文本数据,面对语音、视频等多模态的脱敏诉求时则显得束手无策。全模态安全脱敏能力的缺失,仍制约着 OpenClaw 在端侧的落地和深度应用。

面对端侧 OpenClaw 的落地难点,今天,无问芯穹正式推出 InfiniClaw Box,一个更安全、更专业、可托付的智能伙伴。

 InfiniClaw Box 具备多信源融合与全模态数据适配能力,支持文本、语音、视频等主流数据类型;采用端云一体三段式安全脱敏推理架构,实现全模态数据脱敏处理;依托无问芯穹企业级 Token 工厂,可兼顾多专业场景应用需求与高性价比 Token 消耗;产品内置 80 余个面向政务处理、投资研报、智慧办公等垂类场景的专业 Skills,有效拓展了端侧智能的生产与应用范围。

01 端云一体安全脱敏:三段式隐私守护,云端智能本地享

InfiniClaw Box 直击了本地龙虾在模型成本、性能与隐私之间难以兼顾的核心难题,独创了“本地脱敏 - 云端处理 - 本地回填”的端云一体三段式安全脱敏推理方案,实现了真正意义上的隐私数据绝不上云。

1. 智能脱敏阶段:用户输入的所有文本、图像、音频、视频数据,首先会通过本地多模态大模型对全模态数据进行语义特征的理解与提取,再结合预定义安全信息知识库与脱敏模板进行二次校验,自动识别并替换所有敏感信息如姓名、手机号、身份证号、公司机密、财务数据、医疗记录等,生成一份脱敏后的通用请求。

2. 云端处理阶段:这份完全脱敏的请求将无缝接入无问芯穹大模型服务平台,低成本调用 GLM-5、Kimi-K2.5、MiniMax-M2.5、Step-3.5 等行业头部智能体大模型,利用云端最强大的大模型能力完成复杂推理、知识检索、内容生成等任务。整个过程中,云端永远无法接触到任何原始隐私数据。

 3. 本地回填阶段:云端返回的通用结果将在 InfiniClaw Box 本地进入“隐私重构引擎”,在不泄露任何隐私数据的前提下,将被替换的敏感信息进行精准位置感知的自动回填。该过程确保数据在“脱敏-推理-回填”全链路中实现隐私数据零出域、结果语义无损恢复。最终输出结果在表达完整性、上下文一致性上与纯云端处理完全一致,技术上实现了隐私安全与大模型能力的解耦融合,并达到“数据不出盒、能力不打折”的最终效果。

 由此,InfiniClaw Box 真正实现了 “安全养虾不裸奔,云端智能本地享”,让用户在享受顶级 AI 生产力的同时,真正获得隐私安全的底线保障。

02 能听会看擅思考:多信源与多模态适配,解锁更多安全空间

凭借独特的全模态脱敏能力, InfiniClaw Box 突破了大多数龙虾盒子仅能读取文本知识库的局限。它支持多种硬件设备的灵活组合,能够广泛接入并融合多元信源:可连接家庭摄像头、智能门锁等设备实时获取视频画面,也可以通过外接麦克风精准接收语音指令。未来 InfiniClaw Box 还可无缝接入个人电脑、智能眼镜、手机、平板等移动生产力工具,实现文本、图像、语音、视频等多种模态信号的协同处理与复杂任务的跨模态执行,提供标准化开放接口,支持更多场景下的生产力安全提效与功能拓展。

 03 广泛硬件适应:本地算子优化,释放国产端侧芯片潜能

InfiniClaw Box 支持多样化的终端硬件配置,能快速适配并挖掘各种常规性能算力盒子设备的计算潜能。在主流端侧芯片上部署多模态大模型相关的算子时,InfiniClaw Box 通过主控智能体主导的深度 NPU 、GPU算子融合、张量布局(Layout)寻优及极致的显存复用策略,Attention 和 gemm 等核心算子实现了 10% 到 40% 的加速。

 目前,InfiniClaw Box 已与爱芯元智等伙伴在端侧芯片优化与龙虾盒子等方面展开深度合作,未来还将进一步打通适配更多端侧芯片,持续探索本地龙虾在国产端侧芯片应用上的更多可能性。

04 生态协同开放:无界合作,共拓无垠终端智能

目前,无问芯穹 InfiniClaw Box 已与包括爱芯元智、AMD、此芯科技、财搭子、万象智维、酷爱科技、跃向等在内的多家芯片企业、智能终端设备企业及应用企业在底层芯片适配、外接终端设备互联、以及上层应用场景探索等多个维度上建立深度合作。从芯片的软硬协同深度优化,到多样化外设的即插即用对接,再到行业智能体应用的前沿共创,无问芯穹期待携手更多上下游生态伙伴,共同拓展 InfiniClaw Box 的应用边界,助力用户以更低成本、更高效率开启智能化终端探索。

]]> 人工智能 https://www.leiphone.com/category/ai/YZNs5Y6LrKuanvgg.html#comments Fri, 10 Apr 2026 19:18:00 +0800