Agent 概念、原理与构建模式:ReAct 与 Plan-and-Execute 拆解
AI Agent(智能体)是能够自主感知、决策、执行并达成目标的系统。在 LLM 时代,Agent 通常指「大模型 + 工具调用 + 循环控制」的组合,能够完成多步任务、调用外部 API、根据反馈调整行为。本文介绍 Agent 的概念与原理,重点拆解 ReAct 和 Plan-and-Execute 两种主流模式,并列举其他较少用或过时的模式及其缺点。(关于 Tool、MCP 等基础概念,可参考 LLM 与 AI 应用核心概念科普。) 一、Agent 的概念与原理 1.1 什么是 Agent Agent 在 AI 语境下指具备以下能力的系统: 感知:接收输入(用户请求、环境状态、工具返回结果) 决策:根据当前状态选择下一步动作(调用工具、生成回复、结束任务) 执行:调用工具或输出内容,与环境交互 目标导向:围绕用户给定的目标组织行为,而非单次问答 与普通「问答式」LLM 不同,Agent 会多轮与外部世界交互,根据反馈调整策略,直到达成目标或达到迭代上限。 1.2 核心组成 组件 作用 LLM 理解任务、规划步骤、选择工具、整合结果 工具(Tools) 搜索、计算、查库、发邮件等外部能力 记忆/状态 保存对话历史、中间结果、计划步骤 控制循环 决定何时思考、何时行动、何时结束 1.3 构建模式概览 不同 Agent 架构在「何时规划」「如何执行」「是否可调整」上差异很大,形成多种构建模式。主流模式包括: ReAct:边推理边行动,动态循环 Plan-and-Execute:先规划再执行,可含重规划 REWOO:预规划、无动态调整(较少用) Reflexion:从失败中学习、多轮试错(特定场景) LLM Compiler:并行工具调用、DAG 工作流(高性能场景) 下文重点拆解 ReAct 与 Plan-and-Execute,再简要列举其他模式。 二、ReAct 模式拆解 2.1 核心思想 ReAct(Reasoning + Acting) 将推理与行动交织在同一循环中:模型交替进行「思考(Thought)」和「行动(Action)」,根据**观察(Observation)**决定下一步。 ...