LLM 底层到底在干什么?
这篇 0xkato 的《How LLMs Actually Work》可能是目前最清晰的从头讲解现代大模型工作机制的文章了。没有一堆公式,但把 transformer 的每个零件都拆得明明白白。
Step 1: Tokenization(分词)
模型不认识汉字或字母,它只认识数字。
Tokenization 把文本切成词表里的子词片段(subword),映射成整数 ID。 比如 "running" 可能变成 ["run", "ning"]。
好处是能处理新词,平衡效率和覆盖。 小贴士:这就是为什么有些模型数字母会出错——token 边界不是按字符。
3
显示更多