「2018 到 2023 年间在 EMNLP 会议上发表的那篇论文中,第一作者本科就读于达特茅斯学院、第四作者本科就读于宾夕法尼亚大学的那篇科学论文,题目是什么?」
这并不是一道靠记忆就能解答的题。Agent 必须在多轮环境交互中,不断假设、验证并修正路径,始终保持推理一致性,才能将零散证据整合成自洽链条。
2025 年被视为 AI Agent 元年,但真正的自主 Agent 核心在于「深度搜索」,在长程任务中像人类专家一样维持目标、验证信息并动态调整策略。然而,训练这样的 Agent 面临三大瓶颈:
为突破瓶颈,REDSearcher 团队设计了一套低成本、可扩展的训练框架,最终使用 30B 规格模型在深度搜索任务上取得开源模型 SoTA,并且超越了 GPT-5 等一众闭源模型。
一、什么是「足够难」的深度搜索题目?
什么是困难的搜索题目?推理跳数往往只是表象,应该追求的是问题的结构性困难。
1. 拓扑复杂度:用树宽衡量「结构性困难」
复杂任务中,信息分叉交织形成回环。Agent 需同时记忆多路推论,时刻验证一致性,并随时准备整体回溯,这便是深度搜索的核心挑战。为此,团队引入图论中的TreeWidth(树宽)概念来刻画这种「结构性困难」。以下通过三种结构问题进行对比:
2. 信息分散度:杜绝搜索「捷径」
即使问题的拓扑结构很复杂,如果存在一个网页恰好包含所有关键事实,模型一次检索就能抄走答案。为此,团队引入「信息分散度」,即覆盖全部关键证据所需的最小来源数。信息分散度越大,表明问题相关的证据片段(注:原文为“争取片段”,疑为笔误,此处已作修正)在互联网上的分布就更加零散,这迫使 Agent 与外部环境进行更多轮次的交互从而获取更加充分的信息。
二、大规模「自动化」合成
「高难度」的深度搜索问题
基于双约束复杂度标准,我们采用 graph-to-text 流程合成数据:先生成符合树宽与分散度的推理图,再将其翻译为自然语言问题,并经过多层校验确保「高难度、可解且答案唯一」。同时,我们设计了基于「结构化信息」与「网络浏览」两套图构造流程,以覆盖不同搜索环境。在合成问题中,我们采取:
三、多模态扩展:从「文本图」到「多模态图」
在文本合成基础上,REDSearcher 通过模态注入将纯文本推理图转化为跨模态推理,使部分约束锚定在图像中。
通过这套轻量级扩展,REDSearcher 可高效迁移至多模态搜索领域,合成高质量的图文深度搜索问题。
四、「成本可控」Mid-Training 强化智能体能力
预训练模型缺乏多轮交互训练,在长程搜索中易出现目标漂移、重复搜索等问题。为此,REDSearcher 采用可扩展的两阶段 Mid-Training 框架,依次强化模型的「原子能力」与「组合能力」,实现从语言建模到智能体的过渡。
原子能力建设
针对深度搜索重要的两个基础能力优化:
组合能力建设
通过环境交互强化长程任务中的状态维持与目标一致性,全程以成本为约束:
五、后训练持续进化:
不只是「搜得多」,更要「搜得准」
后训练采取 SFT + Agentic RL 双阶段增强:
团队观察到了效率与性能同步提升的现象:随着训练进行,模型的平均交互轮次不断下降,但准确率持续提升。这表明 REDSearcher 并非简单的「暴力搜索」,而是学会了更精准的信息获取策略,主动减少无效调用,形成「越训越聪明」的良性循环。
六、实验结果
在多项深度搜索权威基准上,REDSearcher 在开源模型中取得了优异的表现:
结语
REDSearcher 的核心在于系统性设计:从图论角度定义深度搜索任务复杂度,以双约束优化可扩展合成数据,以两阶段中间训练降低能力迁移成本,以高质量轨迹合成结合强化学习实现持续迭代。它提供了一条可复现、低成本的深度搜索智能体训练路径,使 AI 系统从静态知识查询走向开放环境下的自主探索、验证与信息整合。
作者简介
初征,哈工大社会计算与信息检索中心在读博士生,由刘铭教授和秦兵教授共同指导,研究方向是智能体、大语言模型、复杂推理、深度搜索。
王枭,就职于小红书 Hi Lab,负责Search Agent,主要关注长程推理、智能体、数据合成、强化学习。
Jack Hong,小红书 Hi Lab 团队算法实习生,主要研究方向是多模态大模型、Agent、计算机视觉等。