阑夕 (@foxshuo) “根据Vectara发布的大模型幻觉排行榜，DeepSeek-R1的幻觉率达到了14.3%，远高于Deepsee”

2025.03.05 01:58

根据Vectara发布的大模型幻觉排行榜，DeepSeek-R1的幻觉率达到了14.3%，远高于Deepseek-V3的3.9%，也在所有主流模型里属于较差的一档。按理来说，R1是比V3更新、更强大的模型版本，之所以反而表现得更加拉垮，还是因为推理模型比普通模型先天就更加具有「创造力」，其实在AI研究领域，幻觉本身并不是单纯的缺点，甚至可以说，幻觉就是科学家们希望在AI身上看到的所谓意识，只是我们还没有把AI调教得当，让它在该天马行空的时候自由创作，在该遵守事实的时候有理有据。所以我的这篇文章也不是在说DeepSeek-R1有问题，而是滥用它来批量化生成真假难辨的信息、并海量投放到公网的这种行为，问题很大。越是公共讨论聚集的地方，比如时政、历史、文化、娱乐等领域，越是重灾区，这和自媒体的商业模式有关，有流量就有收入，流量取决于内容的吸引力，同时内容又受到生产成本的限制，而当DeepSeek-R1这种降维打击的武器被交到了每一个人手里，失控就是不可避免的了。第二个例子里的作者大概是察觉到流量太高也容易出事，已经会在新的文章里——依然都还是DeepSeek-R1写的——加上一条下面这样的声明，不过只能说聊胜于无，很少有人会注意到并理解这句话的意思——上面的内容有一半是我编的，但我不告诉你们是哪一半。事实上作者也确实不知道DeepSeek-R1交稿的内容里哪些是真哪些是假，他可能会提供一些参考资料，以及开放全网搜索的权限，但就像我说的，推理模型的运作模式，决定了它不是简单的洗稿，而是会自行完善故事的骨架和细节，最后的结果就是真假参杂，迷惑性反而更大了。（5/n）

显示更多