斯坦福的三位研究者做了一件行业里很少有人愿意做的事:他们把机器人真正送进了人类家里。
不是实验室,不是展厅,是有人真实生活的公寓和住宅。然后他们数了数,这些机器人在完成日常家务时,成功率是多少。
答案是12%。换句话说,失败率88%。
这个数字本身足够刺眼,但更值得追问的是:为什么是现在?为什么是斯坦福?以及,这个被刻意回避的测试,暴露了整个家用机器人行业怎样的集体幻觉?
一、一场被延迟的"成人礼"
家用机器人的承诺已经存在了几十年。从早期的扫地机器人到最近的人形机器人演示,行业一直在展示一个未来:机器人在厨房里切菜,在客厅里收拾杂物,在卧室里整理床铺。
但这些演示有一个共同点——它们发生在受控环境中。
斯坦福的这项研究名为"BEHAVIOR-1K",核心动作很简单:让机器人在真实家庭环境中执行1000种日常任务,然后记录结果。研究团队包括斯坦福的李飞飞(Fei-Fei Li)、吴佳俊(Jiajun Wu)和朱玉彬(Yubin Zhu),他们动用了移动机械臂和四足机器人两种形态,测试场景覆盖了加州的多个真实住宅。
这不是第一个家庭机器人测试,但它是第一个敢于公开全面失败数据的测试。
研究者没有挑选"能成功"的场景做展示,而是设置了完整的任务清单:从打开冰箱取物,到把餐具放进洗碗机,再到用吸尘器清理特定区域。每个任务都按照人类日常使用的标准来评判——不是"机器人动了",而是"任务真的完成了"。
结果12%的成功率,意味着88%的任务以某种方式失败。可能是机械臂撞翻了杯子,可能是机器人找不到目标物体,可能是动作执行到一半卡住,也可能是人类不得不介入接管。
这个数字之所以震撼,不是因为它低,而是因为它是真实的。在此之前,行业习惯了另一种叙事:实验室里的95%成功率,特定场景下的流畅演示,剪辑过的视频片段。斯坦福的研究者把这些遮羞布扯了下来。
二、1000个任务背后的残酷分层
研究团队设计的1000个任务并非随机选取,而是基于对美国时间使用调查(American Time Use Survey)的分析,筛选出人们在家中花费时间最多的活动。这意味着测试覆盖的不是边缘场景,而是核心需求。
任务被分为几个难度层级。最简单的是"导航"——让机器人移动到某个位置。中等难度涉及"操作单一物体",比如拿起一个杯子。最难的是"长程组合任务",比如"做一杯咖啡"或"准备一份简单的早餐",这需要连续执行十几个步骤,任何一环出错都会导致整体失败。
12%的整体成功率,在不同层级间分布极不均匀。纯导航任务的成功率明显高于涉及物体操作的任务,而长程组合任务的成功率接近于零。
研究者记录了大量失败模式。机械臂在抓取不规则物体时频繁打滑;机器人在光线变化或背景杂乱时无法识别目标;多步骤任务中,前期步骤的微小误差会在后期被放大;最致命的是"常识缺失"——机器人无法理解"碗碟应该放在橱柜里"这种对人类显而易见的约束。
一个具体案例:让机器人把牛奶从冰箱取出并倒入杯子。机器人成功打开了冰箱门,识别了牛奶盒,但在抓取时选择了错误的施力点,导致牛奶盒滑落。第二次尝试时,它撞翻了冰箱里的其他物品。第三次,人类不得不介入。
这个案例的残酷之处在于,每个子任务单独看都"几乎可行"——开门、识别、抓取、倾倒——但串联起来,容错率趋近于零。
三、88%失败率背后的技术债务
斯坦福团队没有停留在记录失败,他们进一步分析了失败的技术根源。这些根源指向了家用机器人领域长期积累的"技术债务"。
第一个债务是仿真与现实的鸿沟。绝大多数机器人训练发生在仿真环境中,因为真实世界测试成本高昂且难以规模化。但仿真环境简化了对物理交互的建模——物体的摩擦系数、形变特性、光照反射——这些简化在实验室里无伤大雅,在真实家庭里成为致命弱点。
第二个债务是数据偏见。机器人视觉模型主要在标准数据集上训练,这些数据集的图像质量、物体摆放方式、背景复杂度都经过筛选。真实家庭的光线条件、杂物堆积、非标准家具,构成了训练分布之外的"异常值海洋"。
第三个债务是任务定义的模糊性。人类说"收拾桌子",隐含的理解包括:区分垃圾和需要保留的物品、判断哪些餐具该进洗碗机、处理食物残渣的方式。机器人接收的指令是"抓取物体A并放置到位置B",中间的语义鸿沟需要大量隐含常识来填补。
研究者特别指出,当前最先进的视觉-语言模型(如GPT-4V)在家庭任务规划上表现优异,但将它们与物理执行层连接时,"规划能力"与"执行能力"之间存在断层。机器人可以"理解"该做什么,却无法可靠地"做到"。
这种断层解释了为什么近期人形机器人的演示令人印象深刻,却难以转化为产品。视频里的流畅动作是精心编排的结果,而真实家庭的混乱是不可编排的。
四、行业反应:从否认到重新定价
这项研究发表后,机器人行业的反应呈现出明显的分化。
一部分从业者将其视为必要的清醒剂。某家用机器人初创公司的技术负责人在社交媒体上评论:「我们内部测试的数据与此接近,但从未公开。斯坦福做了大家想做却不敢做的事。」
另一部分则试图淡化其意义。有观点认为,12%的成功率针对的是"通用任务",而商业产品会聚焦特定场景,通过限制范围来提升可靠性。这种辩护本身印证了研究的洞察——家用机器人的商业化路径,可能不是"从实验室到家庭"的直接跳跃,而是"从实验室到受限场景"的渐进收缩。
资本市场也在重新定价。研究发表前后,几家主打"通用家庭机器人"概念的初创公司融资节奏明显放缓。投资者开始追问:你们的演示视频,有多少是在真实家庭里拍摄的?成功率数据是多少?
更深远的影响可能在于研究方法论本身。斯坦福团队开源了测试框架和任务定义,这意味着其他研究者和公司可以用同一套标准来评估自己的产品。行业可能迎来一个"去演示化"的时期——用可复现的测试替代精心剪辑的视频,用公开的成功率数据替代模糊的"技术领先"宣称。
这种转变对头部玩家未必是坏事。那些真正有技术积累的公司,反而能在标准化测试中脱颖而出。但对依赖营销造势的初创公司,这可能是生死门槛。
五、12%之后的三种可能路径
面对88%的失败率,家用机器人行业有几种可能的演进方向。
第一条路径是"场景收缩"。不再追求通用的"家庭助手",而是聚焦特定的高频、高价值任务。比如专门的窗户清洁机器人、折叠衣物机器人、厨房备餐机器人。每个产品牺牲通用性,换取在狭窄领域内的可靠性。这条路径的商业逻辑清晰,但天花板有限——消费者愿意为多个单一功能机器人支付的总价,可能低于一个通用机器人的心理价位。
第二条路径是"人机协作重构"。承认机器人在长程任务中的不可靠性,重新设计交互模式。不是"机器人独立完成",而是"机器人执行子任务,人类监督和纠错"。这种模式下,12%的成功率可以被视为"机器人能自主完成的部分",其余88%由人机协作覆盖。挑战在于,这种交互模式是否比纯人工操作更高效,以及消费者是否愿意为此付费。
第三条路径是"技术跃迁等待"。维持当前的研究投入,等待基础技术的突破——可能是更鲁棒的触觉感知、更高效的仿真到现实迁移、或者规模化的真实世界数据收集。这条路径的风险在于时间成本,以及资本耐心。当前的投资周期是否允许十年级别的技术孵化,是个未知数。
斯坦福的研究者没有明确支持哪条路径,但他们的数据暗示了某种倾向:在现有技术条件下,"场景收缩"和"人机协作"是更务实的选择,而"通用家庭机器人"的愿景可能需要更长时间的酝酿。
六、一个被忽视的变量:家庭的"反脆弱性"
研究中还记录了一个有趣的现象:不同家庭环境对机器人的友好程度差异巨大。
有些住宅经过"机器人优化"——物品摆放整齐、光线充足、地面平整、家具标准化。在这些环境中,成功率明显更高。而 cluttered(杂乱)的家庭、有小孩或宠物的家庭、老式装修的住宅,构成了机器人的"困难地形"。
这引发了一个被忽视的变量:家庭本身的"反脆弱性"。
工业机器人在工厂里成功,很大程度上是因为工厂被设计成适合机器人的环境——固定的工位、标准化的部件、可控的照明。家用机器人面临的环境恰恰相反:为人类舒适而设计,为机器人友好而随机。
斯坦福的数据暗示,家用机器人的普及可能不是单向的技术输出,而是双向的环境改造。要么机器人适应家庭,要么家庭适应机器人。前者需要技术的巨大进步,后者需要消费者行为的显著改变。
历史上,技术产品的普及往往伴随着使用环境的隐性调整。扫地机器人的流行,某种程度上是因为消费者学会了"不要把电线扔在地上"。智能音箱的普及,伴随着"在特定位置放置设备"的新习惯。
但家用机器人要求的环境改造程度远高于此。如果12%的成功率对应的是"优化后"的家庭环境,那么真实世界的起点可能更低。
七、测量本身即干预
回到研究的发起者——斯坦福的李飞飞团队。为什么选择现在发布这项研究?
一个可能的解读是:测量本身即干预。在家用机器人领域,缺乏统一的评估标准导致了信息不对称。公司可以选择性地展示成功场景,投资者和消费者难以辨别真实能力。通过建立公开、可复现的测试基准,斯坦福实际上在重塑行业的信息结构。
这种"基础设施式"的研究,比单一的技术突破更具长期影响力。它定义了"什么是好的",从而引导资源流向。
研究团队的成员背景也值得关注。李飞飞是计算机视觉领域的权威,吴佳俊专注于物理推理和三维理解,朱玉彬的工作涉及机器人学习。这种组合暗示了研究的技术取向:问题不在于"机器人不知道做什么"(高层规划),而在于"机器人做不到"(感知-动作闭环)。
这与当前AI领域的热点形成某种张力。大语言模型和多模态模型的进展,让"理解指令"变得相对容易。但斯坦福的数据显示,"理解"与"执行"之间的鸿沟,可能比想象中更深。
这种张力对AI应用的投资逻辑有直接影响。如果物理交互是瓶颈,那么纯软件的智能体(如聊天机器人、编程助手)可能比物理机器人更快商业化。资本正在重新评估"智能"的定价——理解语言的智能,与改变物理世界的智能,是否应该享有同样的估值倍数?
八、从88%到?
研究没有给出明确的改进路线图,但数据本身指出了几个高杠杆的干预点。
仿真到现实的迁移(Sim-to-Real)是明显的瓶颈。当前的方法依赖领域随机化(Domain Randomization)——在仿真中引入大量参数变化,希望模型学到鲁棒策略。但斯坦福的测试显示,真实世界的变化维度远超仿真能覆盖的范围。可能需要新的范式,比如在线自适应(Online Adaptation),让机器人在部署后持续学习特定环境的特性。
触觉感知的缺失是另一个瓶颈。视觉提供了丰富的信息,但抓取和执行需要力反馈。当前机器人的触觉传感器要么成本过高,要么分辨率不足。研究中的大量失败源于"看见了但抓不住"——视觉-动作映射的精度不够。
长程任务的分解策略也需要重新思考。当前的方法倾向于端到端学习,或者人工设计的层级规划。但88%的失败率暗示,可能需要更激进的中间表示——比如"可回滚的原子操作",让机器人在出错时能恢复到安全状态,而不是 cascading failure(级联失败)。
这些技术方向并非全新,但斯坦福的数据为它们赋予了新的优先级。在资源有限的情况下,行业需要选择:是继续追逐通用的"家庭助手"愿景,还是接受约束、在特定场景内建立可靠能力?
九、消费者视角:被管理的预期
对于潜在的消费者,这项研究提供了难得的诚实。
家用机器人行业长期存在预期管理的问题。演示视频、媒体报导、甚至科幻作品,共同构建了一个"即将实现"的叙事。但12%的成功率暗示,对于绝大多数家庭,可靠的机器人助手仍然是"未来"而非"现在"。
这种诚实可能带来短期的市场冷却,但长期看是健康的。它为消费者提供了决策依据:当前购买家用机器人,应该基于它能确实完成的任务,而非承诺的未来能力。
研究也暗示了另一种消费模式的可能性:机器人即服务(RaaS)。不是购买硬件,而是按需调用。在这种模式下,88%的失败率由服务提供商承担,消费者只为自己成功完成的服务付费。这改变了风险分配,也可能改变技术迭代的动力——服务提供者有更强的激励去收集真实世界的失败数据,而非展示精心策划的成功。
十、当测量成为基础设施
斯坦福的这项研究,最终的价值可能不在于12%这个数字本身,而在于测量行为所建立的基础设施。
在AI和机器人领域,基准测试(Benchmark)一直是技术进步的隐形推手。ImageNet推动了计算机视觉的爆发,GLUE和SuperGLUE重塑了自然语言处理的竞争格局。BEHAVIOR-1K可能成为家用机器人领域的类似基础设施——一个公开的、可复现的、持续更新的评估标准。
这种基础设施的建立,往往伴随着痛苦的透明化。公司不再能选择性地展示优势,必须在统一标准下接受检验。短期内,这可能抑制某些类型的创新——那些依赖演示效果而非实质能力的"创新"。长期看,它筛选出真正解决难题的玩家,加速领域的成熟。
对于关注这个领域的科技从业者,斯坦福的研究提供了一个观察窗口:不是看公司说了什么,而是看它们在BEHAVIOR-1K或类似基准上的表现。这种"基准驱动"的投资和研究策略,可能比追逐最新的演示视频更可靠。
家用机器人的故事远未结束。12%是一个起点,而非终点。但它是一个诚实的起点——承认现状的局限,才能找到突破的路径。在这个意义上,斯坦福的88%失败率,可能是这个领域最重要的进展之一。