Agent 概念、原理与构建模式:ReAct 与 Plan-and-Execute 拆解

AI Agent(智能体)是能够自主感知、决策、执行并达成目标的系统。在 LLM 时代,Agent 通常指「大模型 + 工具调用 + 循环控制」的组合,能够完成多步任务、调用外部 API、根据反馈调整行为。本文介绍 Agent 的概念与原理,重点拆解 ReAct 和 Plan-and-Execute 两种主流模式,并列举其他较少用或过时的模式及其缺点。(关于 Tool、MCP 等基础概念,可参考 LLM 与 AI 应用核心概念科普。) 一、Agent 的概念与原理 1.1 什么是 Agent Agent 在 AI 语境下指具备以下能力的系统: 感知:接收输入(用户请求、环境状态、工具返回结果) 决策:根据当前状态选择下一步动作(调用工具、生成回复、结束任务) 执行:调用工具或输出内容,与环境交互 目标导向:围绕用户给定的目标组织行为,而非单次问答 与普通「问答式」LLM 不同,Agent 会多轮与外部世界交互,根据反馈调整策略,直到达成目标或达到迭代上限。 1.2 核心组成 组件 作用 LLM 理解任务、规划步骤、选择工具、整合结果 工具(Tools) 搜索、计算、查库、发邮件等外部能力 记忆/状态 保存对话历史、中间结果、计划步骤 控制循环 决定何时思考、何时行动、何时结束 1.3 构建模式概览 不同 Agent 架构在「何时规划」「如何执行」「是否可调整」上差异很大,形成多种构建模式。主流模式包括: ReAct:边推理边行动,动态循环 Plan-and-Execute:先规划再执行,可含重规划 REWOO:预规划、无动态调整(较少用) Reflexion:从失败中学习、多轮试错(特定场景) LLM Compiler:并行工具调用、DAG 工作流(高性能场景) 下文重点拆解 ReAct 与 Plan-and-Execute,再简要列举其他模式。 二、ReAct 模式拆解 2.1 核心思想 ReAct(Reasoning + Acting) 将推理与行动交织在同一循环中:模型交替进行「思考(Thought)」和「行动(Action)」,根据**观察(Observation)**决定下一步。 ...

March 20, 2026 · 2 min

AI 幻觉的来源与机制详解:从 Token、BPE 到 Context 压缩

AI 幻觉(Hallucination)指大语言模型生成看似合理、实则错误的内容——虚构事实、张冠李戴、自信地给出错误答案。例如:问「某位学者的博士论文标题是什么」,模型可能自信地给出三个不同答案,却全部错误;问「他的生日是哪天」,同样可能编造三个日期,无一正确。要理解幻觉从何而来,需要从模型与文本交互的底层机制入手。本文从 Token、BPE、Context Window、压缩算法等环节,梳理幻觉的来源与成因。(关于 Token、Context Window 等基础概念,可参考 LLM 与 AI 应用核心概念科普。) 一、Token 与 LLM 的通信原理 1.1 文本如何进入模型 人类输入的是自然语言,模型内部处理的是数字。Token 是二者之间的桥梁:文本先被切分成 Token 序列,再映射为向量(Embedding),才能参与计算。 用户输入:「今天天气很好」 ↓ Tokenizer(如 BPE) Token 序列:[今, 天, 天, 气, 很, 好] ↓ Embedding 层 向量序列:[[0.1, -0.3, ...], [0.2, 0.5, ...], ...] ↓ 注意力 + 前向传播 下一个 Token 的概率分布 ↓ 采样 / 贪心 输出 Token → 解码为文本 1.2 核心流程简述 Tokenization:将文本拆成 Token(词、子词或字符级) Embedding:每个 Token 映射为高维向量,携带语义信息(例如「猫」和「狗」的向量较接近,「猫」和「汽车」较远) 注意力机制:模型根据上下文为每个位置分配权重,决定「关注」哪些 Token(例如生成「苹果」时,若上下文是「乔布斯创办了___」,会更多关注「乔布斯」「创办」) 前向传播:通过多层 Transformer,得到每个位置对下一个 Token 的预测分布 解码:按概率采样或取最大概率 Token,再映射回文本输出 1.3 与幻觉的关系 模型没有「真假」概念,只学习「在给定上下文下,下一个 Token 最可能是什么」。当训练数据中某类模式稀少或矛盾时,模型会倾向于生成统计上合理、但事实错误的续写。 ...

March 15, 2026 · 2 min

LLM 与 AI 应用核心概念科普:Token、Context、Prompt、Tool 与 Skill

当你开始使用 ChatGPT、Claude 等 AI 产品,或尝试开发 AI 应用时,会频繁遇到一些术语:Token、Context Window、Prompt、MCP、Skill……本文用通俗的语言和例子,帮你快速理解这些概念。 LLM:大语言模型 LLM(Large Language Model,大语言模型) 是能够理解和生成人类语言的 AI 模型。你可以把它想象成一位「读过海量书籍、文章和代码」的助手:给它一段文字,它能续写、总结、翻译、写代码,或回答你的问题。 常见的大模型包括 OpenAI 的 GPT 系列、Anthropic 的 Claude、Google 的 Gemini 等。它们都基于「预测下一个词」的核心机制:根据已有内容,推断最可能的下一个词,从而生成连贯的文本。 Token:AI 的「语言积木」 Token 是 LLM 处理文本的最小单位。它不是完整的单词,而可能是: 一个单词(如 hello) 单词的一部分(如 un + believable) 一个汉字或几个汉字 标点、空格等 可以把它类比成乐高积木:模型把文本拆成一块块 Token,再根据这些积木的组合规律来理解和生成内容。 粗略换算 语言 大致换算 英文 1 Token ≈ 0.75 个单词 ≈ 4 个字符 中文 1 Token ≈ 1–2 个汉字 例如:「人工智能」可能被拆成 2–3 个 Token。因此,同样长度的中文往往比英文消耗更多 Token。 为什么 Token 重要? 计费:多数 AI 服务按 Token 数量收费(输入 + 输出) 上下文限制:模型单次能「记住」的内容有上限,通常用 Token 数表示 性能:Token 过多会影响响应速度和效果 动手试试:在线分词工具 想直观感受文本如何被拆成 Token?可以使用 OpenAI 官方 Tokenizer 输入任意文字,查看分词结果和数量。 ...

March 10, 2026 · 2 min