IIWAB

CoT、ReAct、Plan-and-Execute、Multi-Agent 四大LLM推理模式完整详解+横向对比

IIWAB 2小时前 ⋅ 3 阅读

CoT、ReAct、Plan-and-Execute、Multi-Agent 四大LLM推理模式完整详解+横向对比

一、四种模式核心定义、原理、执行流程、优缺点、适用场景

1. Chain of Thought(CoT,思维链)

核心思想

让大模型分步拆解推理过程,不直接输出答案,先把中间思考步骤逐条写出来,模拟人类“一步步想”,解决单步直推逻辑断层、复杂算术/逻辑题出错问题。

执行流程

  1. Prompt加入引导词:Let's think step by step / 示例分步推理样例(Few-shot CoT)
  2. LLM输出完整中间推导链条
  3. 基于全部推理步骤,最后汇总给出最终答案

细分变体

  • Standard CoT:单轮一次性写完所有推理步骤
  • Self-Consistency CoT:生成多条不同推理路径,投票选多数答案
  • Zero-shot CoT:无需示例,仅用“step by step”触发分步思考

优点

  • 实现最简单,仅改Prompt,无额外工具/多轮调用
  • 显著提升数学、逻辑、推理题准确率
  • 轻量化、低token开销、低延迟

缺点

  • 纯依赖模型内部知识,无法调用外部工具、实时数据,遇到未知/外部信息问题会幻觉
  • 复杂长任务容易中途推理跑偏,无纠错机制
  • 单模型单轮,不具备任务拆分、分工协作能力

适用场景

数学计算、逻辑推理、阅读理解、简单问答题、不需要联网/工具的纯内部知识任务

2. ReAct(Reason + Act,推理+行动)

核心思想

融合思维推理(Thought)外部工具行动(Action),解决CoT不能联网、查资料、调用工具的缺陷;模型交替执行「思考判断→调用工具→读取工具返回结果→再思考」循环。

执行循环(标准三元组:Thought → Action → Observation)

  1. Thought:模型思考当前缺少什么信息、需要做什么工具调用
  2. Action:输出标准化工具调用指令(搜索、计算器、API、数据库查询等)
  3. Observation:外部工具返回真实结果,拼接进上下文
  4. 循环往复,直到信息足够,输出最终答案

典型代表

LangChain ReAct Agent、Google ReAct论文框架

优点

  • 打通LLM与外部世界,消除静态知识幻觉,支持实时信息、计算、检索
  • 推理和工具调用天然结合,比CoT适配现实查询类任务
  • 单Agent即可完成“思考-工具-再思考”闭环

缺点

  • 单Agent自主规划能力弱,长复杂任务容易陷入无限循环、重复搜索
  • 无分层任务拆解,超大任务会上下文爆炸、推理混乱
  • 缺少自我反思、全局统筹能力

适用场景

联网问答、实时资讯查询、计算器运算、知识库检索、简单API调用、信息搜集类任务

3. Plan-and-Execute(规划-执行,P&E)

核心思想

先全局规划,再分步执行,把任务拆分为有序子任务清单,再逐个落地执行;分为两层:规划器(Planner)、执行器(Executor)。

执行流程

  1. Planner(规划阶段):一次性拆解完整任务,输出结构化分步任务列表(带先后依赖)
  2. Executor(执行阶段):按规划清单逐条执行,可内嵌CoT/ReAct完成单条子任务
  3. 可选反思层:执行失败后回传给Planner重规划、修正方案

变体

  • Basic Plan&Execute:一次性生成固定计划,顺序执行
  • Replan Plan&Execute:每步执行后校验,出错重新规划

优点

  • 拥有全局视角,提前理清任务依赖,不会像ReAct盲目循环调用工具
  • 复杂长任务结构化,上下文可控,逻辑清晰
  • 可嵌套CoT/ReAct作为子步骤执行单元,兼容性强

缺点

  • 规划阶段会产生额外token开销,延迟高于CoT
  • 单模型统筹,多领域交叉复杂任务规划容易片面
  • 没有分工,所有规划+执行由同一个模型承担,负载集中

适用场景

复杂长文本写作、多步骤数据分析、多流程业务任务、项目拆解、多步骤工具串联任务

4. Multi-Agent(多智能体协作)

核心思想

多个具备独立能力的Agent分工协作,每个Agent拥有专属角色、工具、专长;通过通信机制完成任务分发、信息交互、结果汇总,存在调度/主管Agent统筹全局。

经典架构分层

  1. 调度Agent(Manager/Planner):拆解任务、分配给专业子Agent
  2. 专业子Agent:检索Agent、计算Agent、写作Agent、评审Agent、工具Agent等
  3. 通信模块:Agent间传递上下文、中间结果
  4. 汇总/评审Agent:整合多Agent输出、校验纠错、生成最终结果

典型范式

  • 分层多智能体:主管统筹+专业工人
  • 辩论多智能体:正反Agent对抗校验答案
  • 流水线多智能体:串行分工处理长流程

优点

  • 极致任务拆分,各Agent专精单一领域,大幅降低单模型负担
  • 支持复杂跨领域巨型任务(同时需要搜索、计算、写作、代码、评审)
  • 具备自我校验、多方验证,幻觉、错误率大幅下降
  • 可灵活组合CoT/ReAct/Plan-and-Execute作为单个Agent内部推理逻辑

缺点

  • 架构最重,多轮Agent通信,token消耗、延迟最高
  • 调度逻辑复杂,需要设计角色、通信规则、冲突处理
  • 成本高,多轮LLM调用叠加

适用场景

复杂科研报告、大型数据分析、软件开发、多角色业务流程、需要多方校验的高可靠性任务、超长多步骤综合任务


二、四大模式核心维度横向对比表

对比维度CoT 思维链ReAct 推理行动Plan-and-Execute 规划执行Multi-Agent 多智能体
核心定位单模型纯内部分步推理单模型推理+外部工具循环单模型先全局规划再分步执行多模型分工协作,角色专业化
外部工具支持❌ 无工具,仅内部知识✅ 原生支持工具调用循环✅ 执行阶段可内嵌工具(ReAct)✅ 每个Agent可独立带工具
任务规划能力无全局规划,只做单步局部推理无前置全局规划,边做边搜✅ 前置完整全局任务拆解✅ 分层全局规划+任务分发
多模型/角色单模型无角色单通用Agent,无分工单模型一身二职(规划+执行)多独立专业Agent,分工明确
纠错反思机制弱,仅单次推理,无法回退局部单步反思,易循环执行后可重规划,中等纠错多Agent交叉评审,强纠错
上下文开销最低,仅增加分步思考文本中等,工具观测叠加上下文中高,规划文本+每步执行记录最高,多Agent交互上下文叠加
推理延迟最快中等中慢最慢
实现复杂度极低,仅修改Prompt低,简单Agent循环框架中等,需要规划+执行双流程极高,角色、调度、通信全链路设计
幻觉抑制差,无外部信息校验较好,工具真实数据修正良好,结构化执行减少跑偏最优,多方交叉验证
典型最小场景小学数学、逻辑推理题实时联网问答、查资料计算万字长文、多步骤业务流程科研论文、大型系统开发、复杂综合分析
底层依赖仅LLM原生推理能力LLM + 外部工具APILLM(规划)+ LLM(执行)+ 可选工具多个LLM实例 + 调度框架 + 通信层 + 工具

三、递进关系与层级关系(从简单到复杂)

递进链路

CoT(纯内部分步思考) → ReAct(CoT+工具循环) → Plan-and-Execute(全局规划+内嵌ReAct/CoT) → Multi-Agent(多个P&E/ReAct/CoT智能体协同)

  1. CoT是所有高级模式的基础推理单元:ReAct、P&E、Multi-Agent内部单步推理几乎都会嵌入CoT提升单步准确率
  2. ReAct解决CoT“不能用外部工具”的短板,但缺少全局统筹;
  3. Plan-and-Execute给ReAct增加前置全局规划,解决ReAct盲目搜索、任务混乱问题,但仍局限于单个大模型
  4. Multi-Agent突破单模型瓶颈,把规划、执行、检索、校验拆成独立角色,适合超大复杂任务。

嵌套关系举例

  1. 单个Agent内部:Plan-and-Execute 的执行步骤 = ReAct 循环,ReAct 每一步思考 = CoT
  2. 多智能体系统中:每个子Agent可以独立使用CoT / ReAct / Plan-and-Execute三种任意一种推理逻辑

四、选型决策指南(如何根据业务选模式)

  1. 简单纯逻辑题、不需要查资料 → 选 CoT 例:奥数题、图形逻辑、纯文本阅读理解
  2. 需要实时数据、联网检索、计算器、简单API,任务步骤不多 → 选 ReAct 例:今日新闻问答、汇率计算、产品参数查询
  3. 长流程、多子任务、有明确执行顺序,需要提前梳理完整步骤 → 选 Plan-and-Execute 例:市场调研报告撰写、多步骤财务测算、自动化业务工单
  4. 跨领域巨型任务、需要分工校验、多专业模块配合、高准确率要求 → 选 Multi-Agent 例:完整软件开发、学术论文调研写作、企业级数据分析系统、法律多角色文书校验

五、核心短板总结

  1. CoT最大局限:脱离外部真实世界,只能依赖模型训练知识,时效性为0;
  2. ReAct最大局限:短视、无全局计划,复杂任务容易反复无效工具调用;
  3. Plan-and-Execute最大局限:全部任务由同一个模型完成,单一模型能力天花板明显;
  4. Multi-Agent最大局限:工程实现复杂、调用成本高、推理延迟大,小任务会过度设计。

全部评论: 0

    我有话说: