引言
在工业时代,电力是基础资源,我们按"度"付费;在信息时代,流量是基础资源,我们按"GB"付费。那么在人工智能时代,什么将成为新的基础计量单位?
答案是:Token。
这个词最近频繁出现在AI相关的讨论中,但它到底是什么?为什么有人说它将成为像石油、稀土一样的战略资源?今天,让我们彻底搞懂Token。
Token的三重身份
Token并非新概念,它在不同领域有着截然不同的含义:
| 应用场景 | Token的含义 | 核心作用 |
|---|---|---|
| 身份验证 | 访问令牌 (Access Token) | 代替密码,证明"你是你" |
| 大语言模型 | 文本处理的最小单位 | AI理解和计费的基础 |
| 区块链 | 代币/数字凭证 | 代表数字世界中的所有权 |
本文重点探讨第二种——大语言模型中的Token,因为这是AI时代最核心的概念。
AI如何"阅读":从文字到Token
当我们与ChatGPT、Claude或DeepSeek对话时,AI并不是直接按我们理解的"字"或"词"来阅读的。计算机无法直接理解人类语言,必须先进行文本拆解。
英文的分词
英文相对简单,按空格和标点拆分即可:
"I love AI!"
↓ 拆分
["I", "love", "AI", "!"]
复杂一点的词会按前后缀拆解:
"unhappily"
↓ 拆分
["un", "happi", "ly"]
中文的分词
中文更复杂,因为句子是连续的。以"我爱人工智能"为例:
可能的拆分方式:
- [“我”, “爱”, “人”, “工”, “智”, “能”] ❌ 太碎
- [“我”, “爱”, “人工”, “智能”] ❌ 意思不对
- [“我”, “爱”, “人工智能”] ✅ 正确
这需要强大的分词算法来找到正确的词边界。
从Token到理解:AI的"大脑"如何工作
分词只是第一步。接下来,AI要经历一个复杂的过程才能真正"理解":
第一步:查字典,得ID
大模型有一个固定的"词表"(Vocabulary),包含3万到10万个Token。每个Token对应一个唯一的数字ID:
| 词 | Token ID(示例) |
|---|---|
| 我 | 1500 |
| 爱 | 3210 |
| 物理 | 8890 |
输入"物理是什么",先被拆成 ["物理", "是", "什么"],再映射为 [8890, 5678, 9012]。
第二步:Embedding,赋予"意义"
数字ID只是代号,计算机还不懂含义。通过Embedding层,每个词被转化为数千维的向量,带上语义特征。
想象一张巨大的网:
- “物理"位于中心
- “力学”、“量子”、“万有引力"离它很近
- “苹果”、“跑步"离它很远
这样,AI就能通过"距离"计算词与词之间的关系。
第三步:注意力机制,建立联系
通过注意力机制,AI分析词与词之间的关系:
“物理是什么”
- “物理"是主语
- “什么"是宾语
- “是"将它们联系起来
至此,三个独立的词融合成一个带语境的语义整体,AI才真正"读懂"了这句话。
第四步:预测与生成
理解之后,AI在数学空间中进行复杂运算,预测概率最大的下一个Token。然后将概率向量映射回ID,再转回人类能懂的文字——这就是我们看到的结果。
Token经济学:为什么对话越久越贵
理解了Token的工作原理,就能明白AI的计费方式:
计费示例
输入:“请帮我用猫造句,给出两个猫的句子”
- 分词:
["请", "帮", "我", "用", "猫", "造", "句", ",", "给出", "两个", "猫", "的", "句子"] - 13个Token
输出:“我特别喜欢小猫” 和 “小猫真的是一种非常可爱的生物”
- 第一句:4个Token
- 连接词:1个Token
- 第二句:9个Token
- 14个Token
总计:27个Token
为什么对话越久越贵?
因为缓存也会消耗Token。随着对话变长,上下文越来越多,每次请求都要带上之前的对话历史,导致Token消耗呈线性甚至指数增长。
Token:AI时代的战略资源
文章开头提到:Token已经成为一种新的基础经济要素和战略资源。为什么这么说?
三个层面的证据
个人层面:我们为27个Token付费,买的不是文字,而是"被处理过的智能”。正如我们不再关注发电机如何转动,只关注电费单——未来我们也不会关心模型如何训练,只关心Token账单。
企业层面:所有自动化、客服、内容生成,本质上都在消耗Token。谁的Token成本更低、效率更高,谁就拥有智能生产力的定价权。
国家层面:算力竞争、模型竞争,归根结底是Token生产效率的竞争。拥有更低成本、更高效率的Token生产能力,就掌握了AI时代的基础设施。
一个类比
在物理世界,能量守恒是基本定律;在数字世界,Token是智能守恒的度量。
每一单位Token的背后,本质上都是算力、电力和人类知识密度的总和。
结语
Token让"知识"不再只是书本上的文字,而是变成了可以直接参与生产的"语义资产”。这种资产可以被无限复制、瞬间传输、精准调用。
未来社会的所有智力劳动,都会被精准量化为Token进行流转。它已经不是简单的技术名词,而是像石油、稀土一样的战略资源。
理解Token,就是理解AI时代的经济运行方式。
本文基于微信公众号文章《Token是什么》整理撰写,原文作者:小小戒网