注册并分享邀请链接,可获得视频播放与邀请奖励。

Susan STEM (@feltanimalworld) “编码-解码,encoder-decoder, 霍夫曼编码和大模型 编码-解码、Encoder-Decoder、Huffm” — TopicDigg

Susan STEM 的个人资料封面
Susan STEM 的头像
Susan STEM
@feltanimalworld
the Entropy Control Theory : Language as system design, system is larger than the model.
加入 August 2016
6K 正在关注    41.1K 粉丝
编码-解码,encoder-decoder, 霍夫曼编码和大模型 编码-解码、Encoder-Decoder、Huffman编码和大模型之间的关系,必须讲清楚。这个问题非常重要,甚至可以说是理解大模型的真正底层机制时绕不开的核心路径。你如果想搞清楚 GPT 为什么是 Decoder-only,Transformer 架构为什么会演化出 Encoder-only、Decoder-only 和 Encoder-Decoder 三种分支,就必须明白这一整套结构路径从哪里来、为什么如此、又通向何处。 这个问题不是简单的工程选型,而是信息结构演化的产物。它的源头,其实早在 1948 年就已经被香农说透了。他在那篇名为《A Mathematical Theory of Communication》的经典论文中提出了一个今天看起来简单到不能再简单的结构:信息源 → 编码器encoder → 信道channel→ 解码器decoder → 接收器。但这个结构,至今仍是所有通信系统、语言系统、神经网络乃至语言大模型的基础结构。换句话说,我们现在的 GPT、T5、BART、Whisper、CLIP、DALL·E,都是这个五步模型的复杂变体。 为什么要encode-信道channel-decode 如果你觉得这个结构还太抽象,我们可以举个最朴素的例子:莫尔斯电码。在很多抗日神剧里,地下党靠着发报机“滴滴答答”地传送信息。你也许看过——A 是“滴答”,B 是“答滴滴滴”。这套点划组成的规则,其实就是最早的“编码器”。你不能直接用嗓子对着电线喊“ABC”,因为现实世界的信道是带宽受限的媒介,不可能让你毫无压缩地大喊大叫。而且,语言本身是高度冗余的,不仅词汇量大,重复率也高。如果不压缩,你根本传不远、传不快、也传不准。于是必须编码,必须压缩,必须走一遍编码-信道-解码的路径。 这时候我就要讲 Huffman 霍夫曼编码了。1952 年,David Huffman 提出了一种全新的压缩方式,它不是死板地给每个字符分配相同长度的编码,而是引入了概率。这个发明是信息压缩史上第一次真正意义上的结构升级。Huffman 编码根据每个字符在文本中出现的频率动态构建一棵编码树。出现频率越高的字符被分配越短的路径,频率低的字符路径则长一点。这样一来,整体平均编码长度就被显著压缩。这是熵压缩的典型代表,也是后来所有语言压缩技术的思想原点。 动态编码! 你可能觉得这没什么,但它实际上做了三件革命性的事。第一,它每次压缩都根据实际内容“量身定制”,而不是使用固定死的编码表。第二,它极高效,根本不为那些没出现的符号浪费空间。第三,它做到了一个更深层的事——它把“出现频率”转化为了“结构路径”。这是什么?这是把语言的使用偏好内嵌到了结构生成中,也就是后来神经网络、语言模型最核心的思想之一:让结构随着分布自动演化。 很多人以为大模型只是拿了一堆 token 喂进去,学出一个参数空间,然后用来生成文本。但你仔细看,会发现无论是 GPT 的 tokenizer、BERT 的 embedding、T5 的 span masking,还是任何一种语言建模机制,它们背后都包含一个深刻前提:语言是可以被压缩成结构的,而结构可以被还原成语言。这和 Huffman 编码其实是同一个哲学。 (1/n) ….(点点点)这个问题我也觉得很难,毕竟我也不是通讯专业。
显示更多