← 返回首页
30B参数超越GPT-5!REDSearcher让深度搜索Agent做到低成本可扩展|agent|复杂度|大模型|拓扑|智能体|模态|算法_手机网易网 网易 网易号 0

30B参数超越GPT-5!REDSearcher让深度搜索Agent做到低成本可扩展

机器之心Pro
2026-03-09 13:28 ·河北 ·《机器之心》官方网易号
0
打开网易新闻 查看精彩图片

「2018 到 2023 年间在 EMNLP 会议上发表的那篇论文中,第一作者本科就读于达特茅斯学院、第四作者本科就读于宾夕法尼亚大学的那篇科学论文,题目是什么?」

这并不是一道靠记忆就能解答的题。Agent 必须在多轮环境交互中,不断假设、验证并修正路径,始终保持推理一致性,才能将零散证据整合成自洽链条。

2025 年被视为 AI Agent 元年,但真正的自主 Agent 核心在于「深度搜索」,在长程任务中像人类专家一样维持目标、验证信息并动态调整策略。然而,训练这样的 Agent 面临三大瓶颈:

为突破瓶颈,REDSearcher 团队设计了一套低成本、可扩展的训练框架,最终使用 30B 规格模型在深度搜索任务上取得开源模型 SoTA,并且超越了 GPT-5 等一众闭源模型。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

一、什么是「足够难」的深度搜索题目?

什么是困难的搜索题目?推理跳数往往只是表象,应该追求的是问题的结构性困难。

1. 拓扑复杂度:用树宽衡量「结构性困难」

复杂任务中,信息分叉交织形成回环。Agent 需同时记忆多路推论,时刻验证一致性,并随时准备整体回溯,这便是深度搜索的核心挑战。为此,团队引入图论中的TreeWidth(树宽)概念来刻画这种「结构性困难」。以下通过三种结构问题进行对比:

打开网易新闻 查看精彩图片

2. 信息分散度:杜绝搜索「捷径」

即使问题的拓扑结构很复杂,如果存在一个网页恰好包含所有关键事实,模型一次检索就能抄走答案。为此,团队引入「信息分散度」,即覆盖全部关键证据所需的最小来源数。信息分散度越大,表明问题相关的证据片段(注:原文为“争取片段”,疑为笔误,此处已作修正)在互联网上的分布就更加零散,这迫使 Agent 与外部环境进行更多轮次的交互从而获取更加充分的信息。

二、大规模「自动化」合成

「高难度」的深度搜索问题

基于双约束复杂度标准,我们采用 graph-to-text 流程合成数据:先生成符合树宽与分散度的推理图,再将其翻译为自然语言问题,并经过多层校验确保「高难度、可解且答案唯一」。同时,我们设计了基于「结构化信息」与「网络浏览」两套图构造流程,以覆盖不同搜索环境。在合成问题中,我们采取:

打开网易新闻 查看精彩图片

三、多模态扩展:从「文本图」到「多模态图」

在文本合成基础上,REDSearcher 通过模态注入将纯文本推理图转化为跨模态推理,使部分约束锚定在图像中。

通过这套轻量级扩展,REDSearcher 可高效迁移至多模态搜索领域,合成高质量的图文深度搜索问题。

四、「成本可控」Mid-Training 强化智能体能力

预训练模型缺乏多轮交互训练,在长程搜索中易出现目标漂移、重复搜索等问题。为此,REDSearcher 采用可扩展的两阶段 Mid-Training 框架,依次强化模型的「原子能力」与「组合能力」,实现从语言建模到智能体的过渡。

打开网易新闻 查看精彩图片

原子能力建设

针对深度搜索重要的两个基础能力优化:

组合能力建设

通过环境交互强化长程任务中的状态维持与目标一致性,全程以成本为约束:

五、后训练持续进化:

不只是「搜得多」,更要「搜得准」

后训练采取 SFT + Agentic RL 双阶段增强:

团队观察到了效率与性能同步提升的现象:随着训练进行,模型的平均交互轮次不断下降,但准确率持续提升。这表明 REDSearcher 并非简单的「暴力搜索」,而是学会了更精准的信息获取策略,主动减少无效调用,形成「越训越聪明」的良性循环。

六、实验结果

在多项深度搜索权威基准上,REDSearcher 在开源模型中取得了优异的表现:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

结语

REDSearcher 的核心在于系统性设计:从图论角度定义深度搜索任务复杂度,以双约束优化可扩展合成数据,以两阶段中间训练降低能力迁移成本,以高质量轨迹合成结合强化学习实现持续迭代。它提供了一条可复现、低成本的深度搜索智能体训练路径,使 AI 系统从静态知识查询走向开放环境下的自主探索、验证与信息整合。

作者简介

初征,哈工大社会计算与信息检索中心在读博士生,由刘铭教授和秦兵教授共同指导,研究方向是智能体、大语言模型、复杂推理、深度搜索。

王枭,就职于小红书 Hi Lab,负责Search Agent,主要关注长程推理、智能体、数据合成、强化学习。

Jack Hong,小红书 Hi Lab 团队算法实习生,主要研究方向是多模态大模型、Agent、计算机视觉等。

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
打开网易新闻体验更佳

热搜

热门跟贴

相关推荐

回到顶部 回到首页