这几年来行业里一直在期待模型诞生涌现行为,以前会觉得知识量足够多了,模型就能自然演化出智慧,但o1之后发现推理好像才是最关键的那块跳板,DeepSeek就在论文里强调了R1-Zero有哪些行为是自主涌现而非人为命令的,像是当它意识到生成更多的Token才能思考得更加完善、并最终提高自己的性能时,它就开始主动的把思维链越变越长,这在人类世界是本能——长考当然比快棋更有策略——但让模型自个得出这样的经验,非常让人惊喜;
- DeepSeek-R1的训练成本可能在10万-100万美金之间,比起V3的600万美金更少,加上开源之后DeepSeek还演示了用R1去蒸馏其他模型的结果,以及蒸馏之后还能继续强化学习,可以说开源社区对于DeepSeek的拥戴不是没有理由的,它把通往AGI的门票从奢侈品变成了快消品,让更多的人可以进来尝试了;
- Kimi k1.5是和DeepSeek-R1同时发布的,但因为没有开源,加上国际上积累不足,所以虽然也贡献了类似的算法创新,影响力却相当有限,再就是Kimi因为受到2C业务的影响,会比较突出用短思维链实现接近长思维链的方法,所以它会奖励k1.5用更短的推理,这个初衷虽然是迎合用户——不想让人在提问后等太久——但好像有些事与愿违的回报,DeepSeek-R1的很多出圈素材都是思维链里的亮点被用户发现并传播,对于头一次接触推理模型的人来说,他们似乎并不介意模型的冗长效率;
- 数据标注是全行业都在藏的一个点,但这也只是一项过渡方案,像是R1-Zero那种自学习的路线图才是理想,目前来看OpenAI的护城河还是很深,上个月它的Web流量达到了有史以来的最高值,DeepSeek的火爆客观上会为全行业拉新,但Meta会比较难受,LLaMa 3实际没有架构层的创新,也完全没有预料到DeepSeek对开源市场的冲击,Meta的人才储备非常强大,但组织架构没有把这些资源转化成技术成果。
再说Ben Thompson的播客,他在很多地方交叉验证了潘家怡的判断,比如R1-Zero在RLHF里去掉了HF(人类反馈)的技术亮点,但更多的论述则是放在了地缘竞争和大厂往事,叙事的观赏性非常流畅:(4/n)
显示更多