AI 幻觉的来源与机制详解:从 Token、BPE 到 Context 压缩

AI 幻觉(Hallucination)指大语言模型生成看似合理、实则错误的内容——虚构事实、张冠李戴、自信地给出错误答案。例如:问「某位学者的博士论文标题是什么」,模型可能自信地给出三个不同答案,却全部错误;问「他的生日是哪天」,同样可能编造三个日期,无一正确。要理解幻觉从何而来,需要从模型与文本交互的底层机制入手。本文从 Token、BPE、Context Window、压缩算法等环节,梳理幻觉的来源与成因。(关于 Token、Context Window 等基础概念,可参考 LLM 与 AI 应用核心概念科普。) 一、Token 与 LLM 的通信原理 1.1 文本如何进入模型 人类输入的是自然语言,模型内部处理的是数字。Token 是二者之间的桥梁:文本先被切分成 Token 序列,再映射为向量(Embedding),才能参与计算。 用户输入:「今天天气很好」 ↓ Tokenizer(如 BPE) Token 序列:[今, 天, 天, 气, 很, 好] ↓ Embedding 层 向量序列:[[0.1, -0.3, ...], [0.2, 0.5, ...], ...] ↓ 注意力 + 前向传播 下一个 Token 的概率分布 ↓ 采样 / 贪心 输出 Token → 解码为文本 1.2 核心流程简述 Tokenization:将文本拆成 Token(词、子词或字符级) Embedding:每个 Token 映射为高维向量,携带语义信息(例如「猫」和「狗」的向量较接近,「猫」和「汽车」较远) 注意力机制:模型根据上下文为每个位置分配权重,决定「关注」哪些 Token(例如生成「苹果」时,若上下文是「乔布斯创办了___」,会更多关注「乔布斯」「创办」) 前向传播:通过多层 Transformer,得到每个位置对下一个 Token 的预测分布 解码:按概率采样或取最大概率 Token,再映射回文本输出 1.3 与幻觉的关系 模型没有「真假」概念,只学习「在给定上下文下,下一个 Token 最可能是什么」。当训练数据中某类模式稀少或矛盾时,模型会倾向于生成统计上合理、但事实错误的续写。 ...

March 15, 2026 · 2 min