AI模型的Token到底是什么

4/16/2025

有没有好奇过,那些AI是怎么理解我们说的话,还能给出合理的回复?其实背后有个很关键的东西—Token。你可以把它想成大模型世界里的“乐高积木”。

当我们在AI模型里输入一句话,比如“你好”,模型并不是按两个字理解,而是一个Token,因为“你好”是一个常用词语。

比如“我是一个练习两年半的练习生”分词器会先拆成几个小块,我是一个 练习 两年  练习  这7个小块就是7个 Token,有时候一个Token是一个汉字、有时候是一个词、甚至是一整个短语。标点、英文单词,甚至单词的一部分也能算一个 Token。

Token 就是模型处理语言时的最小单位,像一块块积木拼起来,模型才知道你在说什么。

为什么 一个Token有时候代表一个字,有时候代表一个词?其实这跟人类阅读文章的方式很像。我们在阅读时并不会一个字一个字读,而是整词整句地理解。一切固定搭配词组大脑在阅读时会把它当作一个整体,大模型也一样,它会优先把经常一起出现、有完整意义的词当成一个整体来处理,这样效率更高,也更准确。

负责这个拆分工作的是一个叫“分词器”的东西。它会根据学到的海量文本,把文字内容按规则分成一个个 Token。然后组成一个Token表,给每一个Token赋予一个编码。这样分词器就能快速的把你输入的文字转换为Token表中对应的编码,模型根据编码快速理解你要表达的意思。

  • 分词器把文字变成一串数字编号
  • 大模型其实是处理这些编号,而不是文字
  • 最后再把这些编号变成人类语言,就是我们看到的回答

// 模型大致流程
// 1. 输入文本 → 分词器切 Token
// 2. Token 转编号 → 输入模型
// 3. 模型处理 → 输出 Token
// 4. Token 转回文字 → 给用户看
  

结语:Token 是大模型理解语言的基本单位,就像我们写文章要用字、用词,大模型就是用 Token 搭出整个对话逻辑的。这也就是国产大模型对比国际大模型的优势,汉语理解。