数据这个难题,一直在和具身从业者“相爱相杀”。
一方面,所有人都认为高价值数据是决定机器人智能的关键,但另一方面,各种数据采集路径依旧没有统一。
不管是学习人类视频、在仿真环境中生成无限合成数据,还是使用触觉手套、高精度机械臂、灵巧手等设备遥操,具身数据始终难以突破采集成本高、效率低、难规模化、不同本体互通难、泛化能力不足等问题。
甚至,国内具身领域还出现了“数据四小龙”的名号。
在这个分类中,智元机器人被看作遥控真机数据派,银河通用走仿真数据路线,它石智航则是人类视频数据的代表,而大力落地UMI(无本体模仿学习)的公司,鹿明机器人是有些代表性的一家。
鹿明机器人成立于2024年9月,创始人喻超是前追觅人形机器人业务负责人,拥有近10年具身机器人研发经验。曾带队完成了小米Cyberdog的研发量产项目。
过去一年,这家公司推出过多款机器人整机产品,还自主研发FastUMI Pro数据采集系统。这个系统是鹿明针对UMI落地的产品,也是它现在的业务重点。
*鹿明的整机和数据采集系统
UMI是一种比较新兴的数据采集模式。
根据一些定义,它的核心目标是通过一套统一的数据表达与采集方式,覆盖不同形态、不同自由度的操作系统。这种模式首先将人类示教、视觉感知和操作轨迹映射到一个独立于具体机器人形态的中间空间,并利用硬件设备记录完整的运动轨迹和空间数据,再经过模仿学习算法的加工,把人类在现实世界中的自然操作转化为机器人可学习的数据。
相比其他数据采集方式,UMI的主要特点是成本低、采集效率高,可以跨本体,能够让同一份操作数据在不同硬件平台上被理解和学习。
2025年下半年,海外的两个明星产品,Generalist的新模型Gen 0,以及Sunday Robotics,都采用了UMI。
*利用鹿明FastUMI Pro采集数据,复现复杂任务
鹿明机器人也设计了UMI 数据采集系统——FastUMI Pro。目前,这家公司已经与三菱电机、中远海运、德马科技等产业巨头达成战略合作,围绕工业场景展开探索。
在最近的一场分享中,喻超称,2026年,鹿明将达成超100万小时的具身真机数据产能,目标建设全球规模最大的高质量真机数据集。
鹿明机器人的联席CTO丁琰,此前在上海AI Lab担任研究员,在一星机器人担任过CTO,是国内最早推动UMI落地的从业者之一。
他观察到,现在UMI正处于快速落地的阶段,但同时也有很多不为人知的问题:
首先,市场快速涌现出多种UMI数采设备,但训出来的UMI模型却很少。
这是因为大量的UMI数据从生成之初就不具备进入训练管线的条件,也就是数据质量不合格。
很多人认为只要拿着夹爪、录制一段视频,就能生成UMI训练数据。但事实远非如此。真正的UMI 数据,本质上是 AI 对物理世界的“对齐”与“复现”。
可以训练的UMI数据必须满足几个条件。第一是每一帧视觉和空间位姿都要严格对齐。另外,UMI可以集成多个传感器,每个传感器之间也要做到毫秒级的同步。比如,一个人想去拿眼前的一瓶水,不对齐的话得反应好几秒,水就可能拿不起来。
而且,一个好的轨迹必须可以在物理空间运动中可复现。本质要求是希望UMI采集的数据是高一致性的、高密度的,并且有可复现的时序数据结构。
而且,现在很多数据是低质量的“脏数据”以及让模型学习异常困难的“废数据”。
“脏数据”中包含大量抖动、漂移、时间错位,虽然有感知价值,但难以支撑动作策略学习。在单视角UMl + imitation learning场景中,这些“噪声”不会被海量数据抵消,反而会被模型持续放大。
“废数据”,完全复制人在自然状态下随性的动作,没有注入采集技巧,无法用于模型训练。举个叠衣服的例子,人类自然的叠衣服动作对于机器人来说往往是无效的,因为机器人需要特定的“技巧性动作”(比如特定的抖动、铺平轨迹)才能理解物理特性。
没有经过设计的、缺乏“信息密度”的自然行为数据,机器人看了也学不会,数据不仅要“真”,还要“有教学意义”。
现在很多UMI设备采不出满足条件的数据,有两个根本原因。
第一个核心问题是核心硬件模组能力不够。如果UMI的CMOS组件或者主控芯片,性能非常差,就会导致画面覆盖有限,画质不好,曝光也不好,帧率比较抖动,破坏了动作和视觉的因果关系。模仿学习是机器看到什么画面就做什么动作,但画面和动作完全无法对齐,导致这个模型没办法学习。
第二,市面上很多产品不是系统设计的,而是很多现成模块拼凑起来,用USB Hub连接的。这使得产品的带宽架构非常脆弱,每个模块都会抢带宽。一旦有什么负载,就会出现掉帧等一系列问题,所以数据的质量就非常糟糕,不能稳定复现交互记录。
丁琰介绍,正是希望UMI“正确”落地,鹿明在硬件产品、数据采集及模型训练生态等维度都做了布局。
首先是公司自主研发的FastUMI Pro(无本体模仿学习)数据采集系统,将单条数据采集时间从50秒缩短至10秒,效率提升5倍,同时将综合成本降至传统方法的五分之一。
并且,FastUMI Pro还集成了为UMI场景定制的高性能传感器,能实现60Hz高频记录,让多模态信息的毫秒级同步,使数据有效率从行业普遍的70%提升至95%以上。
据称,现在全球具身智能圈里超过三分之二的团队,正在使用FastUMI Pro。
*鹿明FastUMI Pro
在这次交流中,鹿明的创始团队还向现场媒体分享了更多对具身数据和UMI的看法。
以下是交流节选:
Q:目前具身智能的数据获取主要受限于高昂的成本与极低的效率。行业内正围绕遥控真机采集、仿真模拟、互联网视频学习三种方案展开探索。怎么看待这三个方案?
鹿明:我习惯从控制论和信息熵的角度来看待这个问题:
仿真数据不产生新的信息增量。仿真出的环境,跳不出构建系统时设定的规则。它能让动作更丝滑,但给不了机器人面对物理世界时的“信息锚点”。
网络视频训练的是机器人的“大脑”,让它看懂世界,但这离真正的“上手干活”还差一层。
真机数据是解决物理交互的唯一路径。有多少真实的交互数据,机器人就有多少处理复杂物理问题的能力。
视频数据负责理解环境,真实数据负责物理交互,仿真增加信息的丰富度。
Q:你觉得未来UMI和遥操作分别占多大比例?
鹿明:我们觉得UMI可能是数据采集的终极解决方案。从第一性原理来看,人手直接操作是真实物理世界中效率最高的数据采集方式。如果将人手的采集效率定义为 00%,那么UMI这种“人手持夹爪”的采集效率已经达到了90%,已经逼近数据采集的效率极限。
从2024年Pi0模型的1万小时真机数据,到2025年Gen-0模型使用的27万小时UMI数据,2026年的头部算法公司的训练数据规模必然会突破百万小时。随着需求的快速增长,具身智能数据领域的市场需求必然爆发。
在2023年至2024年间,遥操作占据了绝大部分的市场份额,但进入2025年和 2026年后,UMI的市场份额会迎来爆发式增长。
Q:目前业内主流的数采工厂大多是为轮式人形机器人设计的,场景往往局限于一张桌子、几个积木或水杯,空间相对固定。相比之下,UMI似乎天然具备摆脱空间约束的优势。那么,一个理想的UMI数采工厂应该如何设计?它的环境空间又该如何高效复刻?
鹿明:这是一个非常深刻的问题,涉及行业内的一个普遍误区。
首先,关于UMI“不需要空间限制”或“可以随意众包”的观点其实并不准确。事实上,高质量的UMI数据采集依然需要严密的物理空间设计,甚至有着极其严苛的规则限制。如果任由数采员无限制、无规则地自由发挥,产生的数据一致性将极差,最终导致模型无法收敛。这些关于空间设计的约束和技巧,是数据的核心商业机密之一。
关于 UMI 素材工厂的形态,我们认为应根据任务场景进行差异化设计:
第一是桌面任务:虽然形式上也是桌子和物品,但我们会在工作站部署特殊的采集装置。在这种半开放环境下,通过特定的设备配置,确保在看似自由的操作中捕捉到高一致性的数据特征。
还有移动操作任务:这是UMI真正的优势赛道。针对这类需要空间流转的任务,我们提供了一套完整的解决方案:通过集成头部相机、特殊传感器以及双手夹爪的硬件组合,记录人在空间中移动、交互的全过程。
但必须强调的是,即使在移动操作中,数采员也并非“随意乱走”。我们会制定一套复杂的空间引导规则,通过软硬件结合的方式,确保采集过程既具备现实世界的丰富度,又符合模型训练所需的逻辑一致性。目前,鹿明已经拥有三个成熟的数采工场,将通过这种“有规则的自由”,持续输出百万小时级的高质量具身数据。
Q:具身公司采用了UMI训练后,模型能力有没有显著提升?有Benchmark吗?
鹿明:通过UMI能让模型的上限提升,目前算是行业内的共识。
至于Benchmark,在模型泛化能力的考验上,很多行业里的公司倾向于用某个单一任务的成功率来看具身智能模型是否实现泛化。
举个例子,比如说你要去评验一个任务,它可能会出现很多“极端/边缘场景”(corner case)。为了这些场景,唯一的途径可能就是堆数据,堆的越多模型见过的场景越多,成功率才会提升。
比如在Generalist叠纸盒子这个案例上,随着数据越来越多,成功率是明显提升的。
Q:怎么看数据、模型以及跨本体泛化的关系?
鹿明:这里的逻辑比想象中更加复杂,其实可以定位为数据、模型与硬件本体三个核心维度。
首先,数采硬件作为直接决定性因素,性能高低决定了数据的质量,进而数据质量决定了模型的智能上限。劣质数据绝无可能训练出优秀的模型。鹿明首创了“为模型成功率负责”的系统工程范式,从硬件设计源头保障数据质量。在UMI设备最核心的空间精度上,FastUMI Pro达到了1mm,是全球最高精度。
模型训练完成后需要部署在硬件本体上,若本体执行能力不足,模型的效果也无法得到极致发挥,它们之间是相互影响的关系。我们即将发布一款最适配UMI数据的轻量型机械臂,希望通过算法与硬件的深度耦合,将性能的表现提升到极致。
针对跨本体的物理泛化问题,其实我只要在不同的机械臂上放一模一样的相机,末端执行器也保持相同,数据就可以互用了。
Q:整体看下来,你觉得数据采集过程中最难的是什么?
鹿明:人,人,还是人。 流程设计得再完美,最后执行的还是人。
数据需要高度的一致性,但“千人千面”很难统一,比如抓门把手关门,十个人有十种关法。如果这种不规范的数据喂进去,模型就彻底乱了。
为了解决这个问题,我们走过不少弯路。最初我们用了一个笨办法:每采一段数据就丢进小模型里训一下,能训通就说明数据好。但成本太恐怖了,算力贵如金。
后来我们做了一套全自动的评估体系。这套体系的核心就是解决“前处理”和“后处理”的矛盾。以前大家都是采完一堆拿回去慢慢挑,但经验告诉我:数据必须瞬时评估。
通过软件的自适应培训方式,熟练采集工14天可以将数据有效率提升到95%以上
如果你不在采的那一刻告诉他“这条不行,重来”,那最后收回来的全是废数据。所以我们坚持要做及时评估系统,通过软硬件结合,在采集发生的瞬间就卡死质量关。这不是拍脑袋决定的,而是从无数“废数据”堆里总结出来的实战经验。
因此以“可复现”作为第一性原理做数据治理,我带着团队建立了8道工业级数据质量评估体系,只交付100%可复现轨迹。不同类型的客户会给我们提出不同的标准,在给客户交付数据的时候,我们数据质量都能够符合、甚至远高于客户的标准。