Susan STEM (@feltanimalworld) “完整的FNN函数流程我们过一遍现在你已经可以完整理解 FFN（前馈神经网络）的整个结构”

2025.07.02 02:05

完整的FNN函数流程我们过一遍现在你已经可以完整理解 FFN（前馈神经网络）的整个结构公式了： FFN(x)=ReLU(xW1+b1)W2+b2 这个公式描述了 Transformer 中每一层中最关键的结构之一。我们可以一步步来拆解其中的逻辑与意义。首先，输入向量 x 是前面一系列处理步骤的结果——也就是经过多头注意力机制、残差连接和层归一化之后的输出。在我们的语境中，这个 x 是一个 512 维的语义向量，代表当前 token 在这一层的语义状态。第一步是升维操作，即 xW1+b1。其中，W1 是一个尺寸为 512×2048 的权重矩阵，而 b1 是一个 2048 维的偏置项。这个步骤的目的，是将 512 维的语义向量展开到更大的特征空间——2048 维。这样做是为了让模型有更多的参数自由度，能够表达更复杂、更微妙的语义特征。这一层被视作语义的“扩容器”。紧接着是非线性激活函数 ReLU 的处理。ReLU，全称为 Rectified Linear Unit，是目前神经网络中最常用的激活函数。它的定义非常简单：对于输入的每个值 z，如果 z>0，就保留原值；如果 z≤0，就输出 0。也就是说，ReLU 会“压灭”所有负值，仅保留正向激活的信号。你可以把它理解为一种“语义滤波器”，它只让有意义、被激活的信息通过，抑制无效的噪声。比如说，如果输入向量是 [−2.0, 0.0, 1.5, 3.2, −0.8]，那么 ReLU 处理后就是 [0.0, 0.0, 1.5, 3.2, 0.0]。这个操作既非线性，又带有稀疏性，有助于模型聚焦于真正重要的语义特征。只保留正能量！完成了高维空间中的非线性激活之后，下一步就是降维。为了进入下一层 Transformer 结构，我们需要把刚刚扩展到 2048 维的表示，重新压缩回 512 维。这一步由矩阵 W2 和偏置 b2 完成：前者是一个 2048×512 的降维矩阵，后者是一个 512 维的偏置项。你可以把这一步看作语义的“压缩器”或“过滤器”，它从高维表达中抽取出对语言建模最有价值的部分，并通过偏置项进行微调，形成最终的语义输出。整个过程可以简洁地概括为两个阶段：先是“语义展开”，也就是升维加 ReLU，让语义向更宽广的方向发散；然后是“语义浓缩”，通过降维和偏置，把这些信息重新收束到原始维度，准备好交给下一层使用。如果你想从线性代数的角度更进一步理解这个过程，可以做如下复习：首先，输入 x 是一个 1×512 的行向量，乘以 W1∈R512×2048（升维矩阵），得到一个 1×2048 的高维向量；接着，经过 ReLU 变换（逐元素处理），我们仍然得到一个 1×2048 的向量。然后这个向量再乘以降维矩阵 W2∈R2048×512，最终得到一个 1×512 的输出向量(和输入一样），再加上偏置 b2。所以，整个 FFN 的结构就是一套标准的“升维 → 激活 → 降维”流程，加上线性偏置补偿，形成一个稳定而高效的语言变换单元。你要是想进一步复习一下线性代数，你就用用 1×3 向量 × 3×12 升维矩阵再接×12×3降维矩阵来直观演示 FFN 的升维 + ReLU + 降维全流程。没啥区别，一样的。用手算的开，算着玩。具体降维之后为什么还要再加一个b2, 原理也是和b1一样：远离原点。我其实自己对于b2的设置也不是非常清晰，我猜可能就是经验论。（12/n)

显示更多