大模型面试题57：是否了解LLM的分词器，LLM中的词表文件是如何生成的？-育师

LLM就像一个只认识“自家字典”的外国翻译，分词器是“翻译助手”，负责把你说的话（自然语言）拆成“字典”里的一个个“小词条”（Token），再转换成数字让LLM看懂；而词表文件就是这本“字典”，存着所有LLM认识的“词条”和对应的数字编号。

一、入门级：先搞懂「分词器」和「词表」的核心概念

1. 为什么LLM需要分词器？

你可能会问：“直接把每个字/单词当成一个单位不行吗？” 还真不行，核心问题有两个：

问题1：词汇量无限（比如“元宇宙”“ChatGPT”这些新词，永远列不完），如果按“整词”存，字典会无限大，模型装不下；
问题2：字符级拆分（比如把“hello”拆成h/e/l/l/o）会导致Token数量暴增，模型推理速度慢、训练成本高。

分词器的核心作用：用「子词（Subword）」平衡“词汇覆盖”和“Token数量”——既能处理新词（拆成已有子词），又能减少Token数量。

2. 分词器的3种核心拆分方式（小白一眼懂）

拆分方式	例子（中文/英文）	优点	缺点
字符级	“机器学习”→「机、器、学、习」；“unhappy”→「u、n、h、a、p、p、y」	能处理所有新词，无未知词	Token数量多，模型效率低
整词级	“机器学习”→「机器学习」；“unhappy”→「unhappy」	Token数量少	新词/生僻词无法识别（直接标）
子词级（LLM主流）	“机器学习”→「机器、学习」；“unhappy”→「un、happy」	平衡前两者，新词可拆成子词	需要训练词表，依赖语料质量

3. 词表文件到底是什么？

词表文件是分词器的“核心字典”，本质是Token和数字ID的映射表，比如LLaMA-2的词表片段：

<unk> 0 # 未知Token <s> 1 # 句子开头 </s> 2 # 句子结尾 , 3 # 逗号 . 4 # 句号 的 5 # 中文常用字 了 6 # 中文常用字 机器 7 # 子词 学习 8 # 子词

LLM只能理解数字，分词器做两件事：

编码：文本 → 拆分成Token → 转换成ID（比如“机器学习”→7、8）；
解码：ID → 转回Token → 拼接成文本（比如7、8→“机器学习”）。

二、进阶级：词表生成的核心——子词算法（大白话讲透）

词表文件不是“人工编的”，而是用子词算法从海量语料中自动生成的。主流算法有3种，其中BPE（字节对编码）是LLaMA、GPT等大模型的首选，我们重点讲BPE，其他两种简单对比。

1. 核心算法：BPE（Byte Pair Encoding）

BPE的核心逻辑：从最小的字符单元出发，不断合并语料中出现频率最高的字符对，直到达到目标词表大小。

用一个极简例子，带你走一遍BPE生成词表的过程：

步骤1：准备初始语料（已清洗、分词）

["低温", "低压", "低温低压"]

先拆成最小单元（单个字），并统计每个字符的出现次数：

低：4次（“低温”1次+“低压”1次+“低温低压”里的2次）
温：2次
压：2次

步骤2：迭代合并高频字符对

BPE的核心就是“找最常一起出现的两个字符，合并成新子词”，重复这个过程直到词表达标。

迭代次数	找高频字符对	合并成新子词	词表内容（新增标红）	更新后语料
1	“低+温”（2次）	低温	低、温、压、低温	[“低温”, “低压”, “低温低压”]
2	“低+压”（2次）	低压	低、温、压、低温、低压	[“低温”, “低压”, “低温低压”]
3	“低温+低压”（1次）	低温低压	低、温、压、低温、低压、低温低压	[“低温”, “低压”, “低温低压”]

步骤3：停止迭代

如果我们设定词表大小为6，此时词表已经满了，停止合并。最终词表就是上面的6个词条，这就是BPE生成词表的核心逻辑。

2. 其他主流子词算法（简单对比）

算法	核心逻辑	代表模型	小白理解
BPE	从下到上合并（字符→子词→整词）	GPT、LLaMA、Baichuan	简单粗暴，效率最高，适合大模型
WordPiece	合并时计算“合并收益”（更严谨）	BERT、ERNIE	比BPE更精准，但速度稍慢
Unigram	从上到下拆分（先假设大词表，再删低频Token）	T5、ALBERT	生成的词表更灵活，但训练成本高

三、高阶：词表文件的完整生成流程（实操级）

实际工业界生成LLM词表，是一套标准化流程，不是只跑BPE就行。下面按步骤讲，还会给小白能上手的实操代码。

大模型面试题57：是否了解LLM的分词器，LLM中的词表文件是如何生成的？

一、入门级：先搞懂「分词器」和「词表」的核心概念

1. 为什么LLM需要分词器？

2. 分词器的3种核心拆分方式（小白一眼懂）

3. 词表文件到底是什么？

二、进阶级：词表生成的核心——子词算法（大白话讲透）

1. 核心算法：BPE（Byte Pair Encoding）

步骤1：准备初始语料（已清洗、分词）

步骤2：迭代合并高频字符对

步骤3：停止迭代

2. 其他主流子词算法（简单对比）

三、高阶：词表文件的完整生成流程（实操级）

1. 完整流程（工业级）

小白必看：WPS公式编辑器加载失败的最简单修复指南

AI智能实体侦测服务API集成教程：Python调用示例

Windows版Redis企业级应用实战：电商缓存系统搭建

比手动配置快10倍：Node.js环境变量管理技巧

企业级PIP源配置最佳实践

30分钟用AC自动机打造文献关键词提取工具

一、 入门级：先搞懂「分词器」和「词表」的核心概念

1. 为什么LLM需要分词器？

2. 分词器的3种核心拆分方式（小白一眼懂）

3. 词表文件到底是什么？

二、 进阶级：词表生成的核心——子词算法（大白话讲透）

1. 核心算法：BPE（Byte Pair Encoding）

步骤1：准备初始语料（已清洗、分词）

步骤2：迭代合并高频字符对

步骤3：停止迭代

2. 其他主流子词算法（简单对比）

三、 高阶：词表文件的完整生成流程（实操级）

1. 完整流程（工业级）

小白必看：WPS公式编辑器加载失败的最简单修复指南

AI智能实体侦测服务API集成教程：Python调用示例

Windows版Redis企业级应用实战：电商缓存系统搭建

比手动配置快10倍：Node.js环境变量管理技巧

企业级PIP源配置最佳实践

30分钟用AC自动机打造文献关键词提取工具

一、入门级：先搞懂「分词器」和「词表」的核心概念

二、进阶级：词表生成的核心——子词算法（大白话讲透）

三、高阶：词表文件的完整生成流程（实操级）