AI模型的Token到底是什么
4/16/2025
有没有好奇过,那些AI是怎么理解我们说的话,还能给出合理的回复?其实背后有个很关键的东西—Token。你可以把它想成大模型世界里的“乐高积木”。
当我们在AI模型里输入一句话,比如“你好”,模型并不是按两个字理解,而是一个Token,因为“你好”是一个常用词语。
比如“我是一个练习两年半的练习生”分词器会先拆成几个小块,我是一个 练习 两年 半 的 练习 生 这7个小块就是7个 Token,有时候一个Token是一个汉字、有时候是一个词、甚至是一整个短语。标点、英文单词,甚至单词的一部分也能算一个 Token。
Token 就是模型处理语言时的最小单位,像一块块积木拼起来,模型才知道你在说什么。
为什么 一个Token有时候代表一个字,有时候代表一个词?其实这跟人类阅读文章的方式很像。我们在阅读时并不会一个字一个字读,而是整词整句地理解。一切固定搭配词组大脑在阅读时会把它当作一个整体,大模型也一样,它会优先把经常一起出现、有完整意义的词当成一个整体来处理,这样效率更高,也更准确。
负责这个拆分工作的是一个叫“分词器”的东西。它会根据学到的海量文本,把文字内容按规则分成一个个 Token。然后组成一个Token表,给每一个Token赋予一个编码。这样分词器就能快速的把你输入的文字转换为Token表中对应的编码,模型根据编码快速理解你要表达的意思。
- 分词器把文字变成一串数字编号
- 大模型其实是处理这些编号,而不是文字
- 最后再把这些编号变成人类语言,就是我们看到的回答
// 模型大致流程
// 1. 输入文本 → 分词器切 Token
// 2. Token 转编号 → 输入模型
// 3. 模型处理 → 输出 Token
// 4. Token 转回文字 → 给用户看
结语:Token 是大模型理解语言的基本单位,就像我们写文章要用字、用词,大模型就是用 Token 搭出整个对话逻辑的。这也就是国产大模型对比国际大模型的优势,汉语理解。