阑夕 (@foxshuo) “这几年来行业里一直在期待模型诞生涌现行为，以前会觉得知识量足够多了，模型就能自然”

2025.02.11 10:56

这几年来行业里一直在期待模型诞生涌现行为，以前会觉得知识量足够多了，模型就能自然演化出智慧，但o1之后发现推理好像才是最关键的那块跳板，DeepSeek就在论文里强调了R1-Zero有哪些行为是自主涌现而非人为命令的，像是当它意识到生成更多的Token才能思考得更加完善、并最终提高自己的性能时，它就开始主动的把思维链越变越长，这在人类世界是本能——长考当然比快棋更有策略——但让模型自个得出这样的经验，非常让人惊喜； - DeepSeek-R1的训练成本可能在10万-100万美金之间，比起V3的600万美金更少，加上开源之后DeepSeek还演示了用R1去蒸馏其他模型的结果，以及蒸馏之后还能继续强化学习，可以说开源社区对于DeepSeek的拥戴不是没有理由的，它把通往AGI的门票从奢侈品变成了快消品，让更多的人可以进来尝试了； - Kimi k1.5是和DeepSeek-R1同时发布的，但因为没有开源，加上国际上积累不足，所以虽然也贡献了类似的算法创新，影响力却相当有限，再就是Kimi因为受到2C业务的影响，会比较突出用短思维链实现接近长思维链的方法，所以它会奖励k1.5用更短的推理，这个初衷虽然是迎合用户——不想让人在提问后等太久——但好像有些事与愿违的回报，DeepSeek-R1的很多出圈素材都是思维链里的亮点被用户发现并传播，对于头一次接触推理模型的人来说，他们似乎并不介意模型的冗长效率； - 数据标注是全行业都在藏的一个点，但这也只是一项过渡方案，像是R1-Zero那种自学习的路线图才是理想，目前来看OpenAI的护城河还是很深，上个月它的Web流量达到了有史以来的最高值，DeepSeek的火爆客观上会为全行业拉新，但Meta会比较难受，LLaMa 3实际没有架构层的创新，也完全没有预料到DeepSeek对开源市场的冲击，Meta的人才储备非常强大，但组织架构没有把这些资源转化成技术成果。再说Ben Thompson的播客，他在很多地方交叉验证了潘家怡的判断，比如R1-Zero在RLHF里去掉了HF（人类反馈）的技术亮点，但更多的论述则是放在了地缘竞争和大厂往事，叙事的观赏性非常流畅：（4/n）

显示更多