AI | Still writing

Agent 概念、原理与构建模式：ReAct 与 Plan-and-Execute 拆解

AI Agent（智能体）是能够自主感知、决策、执行并达成目标的系统。在 LLM 时代，Agent 通常指「大模型 + 工具调用 + 循环控制」的组合，能够完成多步任务、调用外部 API、根据反馈调整行为。本文介绍 Agent 的概念与原理，重点拆解 ReAct 和 Plan-and-Execute 两种主流模式，并列举其他较少用或过时的模式及其缺点。（关于 Tool、MCP 等基础概念，可参考 LLM 与 AI 应用核心概念科普。）一、Agent 的概念与原理 1.1 什么是 Agent Agent 在 AI 语境下指具备以下能力的系统：感知：接收输入（用户请求、环境状态、工具返回结果）决策：根据当前状态选择下一步动作（调用工具、生成回复、结束任务）执行：调用工具或输出内容，与环境交互目标导向：围绕用户给定的目标组织行为，而非单次问答与普通「问答式」LLM 不同，Agent 会多轮与外部世界交互，根据反馈调整策略，直到达成目标或达到迭代上限。 1.2 核心组成组件作用 LLM 理解任务、规划步骤、选择工具、整合结果工具（Tools）搜索、计算、查库、发邮件等外部能力记忆/状态保存对话历史、中间结果、计划步骤控制循环决定何时思考、何时行动、何时结束 1.3 构建模式概览不同 Agent 架构在「何时规划」「如何执行」「是否可调整」上差异很大，形成多种构建模式。主流模式包括： ReAct：边推理边行动，动态循环 Plan-and-Execute：先规划再执行，可含重规划 REWOO：预规划、无动态调整（较少用） Reflexion：从失败中学习、多轮试错（特定场景） LLM Compiler：并行工具调用、DAG 工作流（高性能场景）下文重点拆解 ReAct 与 Plan-and-Execute，再简要列举其他模式。二、ReAct 模式拆解 2.1 核心思想 ReAct（Reasoning + Acting）将推理与行动交织在同一循环中：模型交替进行「思考（Thought）」和「行动（Action）」，根据**观察（Observation）**决定下一步。 ...

AI 幻觉的来源与机制详解：从 Token、BPE 到 Context 压缩

AI 幻觉（Hallucination）指大语言模型生成看似合理、实则错误的内容——虚构事实、张冠李戴、自信地给出错误答案。例如：问「某位学者的博士论文标题是什么」，模型可能自信地给出三个不同答案，却全部错误；问「他的生日是哪天」，同样可能编造三个日期，无一正确。要理解幻觉从何而来，需要从模型与文本交互的底层机制入手。本文从 Token、BPE、Context Window、压缩算法等环节，梳理幻觉的来源与成因。（关于 Token、Context Window 等基础概念，可参考 LLM 与 AI 应用核心概念科普。）一、Token 与 LLM 的通信原理 1.1 文本如何进入模型人类输入的是自然语言，模型内部处理的是数字。Token 是二者之间的桥梁：文本先被切分成 Token 序列，再映射为向量（Embedding），才能参与计算。用户输入：「今天天气很好」 ↓ Tokenizer（如 BPE） Token 序列：[今, 天, 天, 气, 很, 好] ↓ Embedding 层向量序列：[[0.1, -0.3, ...], [0.2, 0.5, ...], ...] ↓ 注意力 + 前向传播下一个 Token 的概率分布 ↓ 采样 / 贪心输出 Token → 解码为文本 1.2 核心流程简述 Tokenization：将文本拆成 Token（词、子词或字符级） Embedding：每个 Token 映射为高维向量，携带语义信息（例如「猫」和「狗」的向量较接近，「猫」和「汽车」较远）注意力机制：模型根据上下文为每个位置分配权重，决定「关注」哪些 Token（例如生成「苹果」时，若上下文是「乔布斯创办了___」，会更多关注「乔布斯」「创办」）前向传播：通过多层 Transformer，得到每个位置对下一个 Token 的预测分布解码：按概率采样或取最大概率 Token，再映射回文本输出 1.3 与幻觉的关系模型没有「真假」概念，只学习「在给定上下文下，下一个 Token 最可能是什么」。当训练数据中某类模式稀少或矛盾时，模型会倾向于生成统计上合理、但事实错误的续写。 ...

LLM 与 AI 应用核心概念科普：Token、Context、Prompt、Tool 与 Skill

当你开始使用 ChatGPT、Claude 等 AI 产品，或尝试开发 AI 应用时，会频繁遇到一些术语：Token、Context Window、Prompt、MCP、Skill……本文用通俗的语言和例子，帮你快速理解这些概念。 LLM：大语言模型 LLM（Large Language Model，大语言模型）是能够理解和生成人类语言的 AI 模型。你可以把它想象成一位「读过海量书籍、文章和代码」的助手：给它一段文字，它能续写、总结、翻译、写代码，或回答你的问题。常见的大模型包括 OpenAI 的 GPT 系列、Anthropic 的 Claude、Google 的 Gemini 等。它们都基于「预测下一个词」的核心机制：根据已有内容，推断最可能的下一个词，从而生成连贯的文本。 Token：AI 的「语言积木」 Token 是 LLM 处理文本的最小单位。它不是完整的单词，而可能是：一个单词（如 hello）单词的一部分（如 un + believable）一个汉字或几个汉字标点、空格等可以把它类比成乐高积木：模型把文本拆成一块块 Token，再根据这些积木的组合规律来理解和生成内容。粗略换算语言大致换算英文 1 Token ≈ 0.75 个单词 ≈ 4 个字符中文 1 Token ≈ 1–2 个汉字例如：「人工智能」可能被拆成 2–3 个 Token。因此，同样长度的中文往往比英文消耗更多 Token。为什么 Token 重要？计费：多数 AI 服务按 Token 数量收费（输入 + 输出）上下文限制：模型单次能「记住」的内容有上限，通常用 Token 数表示性能：Token 过多会影响响应速度和效果动手试试：在线分词工具想直观感受文本如何被拆成 Token？可以使用 OpenAI 官方 Tokenizer 输入任意文字，查看分词结果和数量。 ...