news 2026/6/25 13:57:41

Token(词元),5分钟彻底搞懂

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Token(词元),5分钟彻底搞懂

如果你习惯看视频,就看《4. Token(词元),看会动画敲下代码,就彻底搞懂了》,喜欢看文章就接着往下看。

Token的优化过程如下

大模型单次调用的总消耗 Token 由两部分组成:总消耗 Token = 输入 Token + 输出 Token。其中,输入 Token 的构成更为细致,包括当前用户提问 Token、系统提示词 Token、历史对话上下文 Token,以及消息格式开销 Token。

需要注意的是,Token 的实际切分由各模型厂商自研的 Tokenizer(分词器)独立完成,因此相同文本在不同模型上会产生不同的 Token 数量与序列。以上提及的换算比例等数据,均为行业通用估算参考。

下面通过代码实战,带你彻底搞懂。首先打开命令行窗口,使用 pip 命令安装 transformers和PyTorch 开发库。

pip install transformers torch

安装完成后,我们便可以借助 transformers 库加载主流的分词器,直观地观察文本到 Token 的切分过程。以下是具体代码示例:

# 首先从 transformers 库中导入 AutoTokenizer 类,它能自动适配不同大模型的分词规则 from transformers import AutoTokenizer # 接着从预训练权重加载 Qwen2 模型的分词器 # 注意: "Qwen2_tokenizer"是下载到本地自命名的分词器 ,下载地址见文章最后链接 tokenizer = AutoTokenizer.from_pretrained("Qwen2_tokenizer") # 定义待处理的输入文本 text = "你好,我是cool。" # --------------------------------------------------------- # 第1步:分词 (Tokenization) # --------------------------------------------------------- # 使用 BPE算法将文本切分为“子词单元” # 规则是:常见词为1个Token,复杂词会拆开,标点也算Token。 bpe_codes = tokenizer.tokenize(text) # 先打印出来看一下结果 print(bpe_codes) # 为了让分词结果可读,需要做一下处理 decoded_result = [] for bpe_code in bpe_codes: # 先将子词转换为模型词汇表中的ID id = tokenizer.convert_tokens_to_ids(bpe_code) # 再将单个ID解码回文本并将结果存起来 decoded = tokenizer.decode([id]) decoded_result.append(decoded) # 输出最终的分词列表 print("分词结果:", decoded_result) # --------------------------------------------------------- # 第2步:向量化 (Numericalization) # --------------------------------------------------------- # 将字符串形式的 Token 列表转换为模型能处理的整数 ID 列表 # 这是大模型的“输入语言”(模型只认识数字,不认识文字) token_ids = tokenizer.convert_tokens_to_ids(bpe_codes) print("向量ID:", token_ids) # --------------------------------------------------------- # 第3步:统计 Token 数量 # --------------------------------------------------------- # 计算 Token 总数 count = len(token_ids) print("Token总数:", count) # 将 ID 列表完整解码回原始文本
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 13:55:11

SEO思维如何赋能地理智能:从搜索优化到空间决策

1. 这不是转型指南,而是一份数据科学家在AI洪流中的生存手记“SEO to GEO”这个标题乍看像一场营销术语的戏谑拼接——把搜索引擎优化(SEO)硬拉进地理空间(GEO)语境,但真正读进去,你会发现它戳中…

作者头像 李华
网站建设 2026/6/25 13:54:45

Java 开发者“优雅”转战 Python:FastAPI 是 Spring Boot 的平替吗?

写在前面你好,我是 Evan。作为一名 Java 后端开发者,我对 Python 的感情一直很复杂。一方面,AI 浪潮铺天盖地,几乎所有大模型 SDK 的首选语言都是 Python;另一方面,Java 那套 “Spring 全家桶 微服务生态”…

作者头像 李华
网站建设 2026/6/25 13:54:13

当漏洞来了,你知道系统里用了什么吗?——SBOM 的真正价值

Log4j 那天晚上,我在客户现场2021 年 12 月,我记得很清楚,那天我正在银行客户现场做交付。下午四五点的时候,客户的安全团队突然在群里炸了:Log4j 出了一个远程代码执行漏洞,CVSS 满分 10 分,影…

作者头像 李华
网站建设 2026/6/25 13:53:22

2026零基础录音转文字入门指南避坑教学包教包会看完可直接上手

这是2026年零基础就能直接上手的录音转文字入门指南,帮你避开常见坑,看完就能用,专门解决职场新人转写培训录音、整理带教对话、快速掌握新岗位知识的需求。不管你之前只会用基础转写功能,还是完全没接触过录音转文字,…

作者头像 李华
网站建设 2026/6/25 13:51:17

【八股学习】大模型预训练数据 || 数据污染 || MHA、MQA和GQA || RoPE || KV Cache

大模型预训练数据通常需要经过哪些清洗、过滤和去重步骤?大模型预训练数据的清洗、过滤和去重,是决定模型性能和训练效率的核心环节。这通常不是一个简单的线性流程,而是一个多层级、多工具组合的工程系统。数据清洗:从原始网页到…

作者头像 李华
网站建设 2026/6/25 13:49:48

早期停止聚合:用并行短任务加速统计推断与机器学习计算

1. 项目概述:当“提前下班”遇上统计推断在统计建模和机器学习的世界里,我们常常面临一个经典困境:计算成本与推断精度之间的拉锯战。无论是运行一个复杂的贝叶斯马尔可夫链蒙特卡洛模拟,还是执行一个需要大量重采样的频率派自助法…

作者头像 李华