幻觉 | Still writing

AI 幻觉（Hallucination）指大语言模型生成看似合理、实则错误的内容——虚构事实、张冠李戴、自信地给出错误答案。例如：问「某位学者的博士论文标题是什么」，模型可能自信地给出三个不同答案，却全部错误；问「他的生日是哪天」，同样可能编造三个日期，无一正确。要理解幻觉从何而来，需要从模型与文本交互的底层机制入手。本文从 Token、BPE、Context Window、压缩算法等环节，梳理幻觉的来源与成因。（关于 Token、Context Window 等基础概念，可参考 LLM 与 AI 应用核心概念科普。）一、Token 与 LLM 的通信原理 1.1 文本如何进入模型人类输入的是自然语言，模型内部处理的是数字。Token 是二者之间的桥梁：文本先被切分成 Token 序列，再映射为向量（Embedding），才能参与计算。用户输入：「今天天气很好」 ↓ Tokenizer（如 BPE） Token 序列：[今, 天, 天, 气, 很, 好] ↓ Embedding 层向量序列：[[0.1, -0.3, ...], [0.2, 0.5, ...], ...] ↓ 注意力 + 前向传播下一个 Token 的概率分布 ↓ 采样 / 贪心输出 Token → 解码为文本 1.2 核心流程简述 Tokenization：将文本拆成 Token（词、子词或字符级） Embedding：每个 Token 映射为高维向量，携带语义信息（例如「猫」和「狗」的向量较接近，「猫」和「汽车」较远）注意力机制：模型根据上下文为每个位置分配权重，决定「关注」哪些 Token（例如生成「苹果」时，若上下文是「乔布斯创办了___」，会更多关注「乔布斯」「创办」）前向传播：通过多层 Transformer，得到每个位置对下一个 Token 的预测分布解码：按概率采样或取最大概率 Token，再映射回文本输出 1.3 与幻觉的关系模型没有「真假」概念，只学习「在给定上下文下，下一个 Token 最可能是什么」。当训练数据中某类模式稀少或矛盾时，模型会倾向于生成统计上合理、但事实错误的续写。 ...