注册并分享邀请链接,可获得视频播放与邀请奖励。

阑夕 (@foxshuo) “根据Vectara发布的大模型幻觉排行榜,DeepSeek-R1的幻觉率达到了14.3%,远高于Deepsee” — TopicDigg

阑夕 的个人资料封面
阑夕 的头像
阑夕
@foxshuo
说什么是你的自由,做什么是我的权利,如果我做的得不到你的赞同,那就对了,否则我将与你一样平淡无奇。
加入 August 2009
774 正在关注    172.9K 粉丝
根据Vectara发布的大模型幻觉排行榜,DeepSeek-R1的幻觉率达到了14.3%,远高于Deepseek-V3的3.9%,也在所有主流模型里属于较差的一档。 按理来说,R1是比V3更新、更强大的模型版本,之所以反而表现得更加拉垮,还是因为推理模型比普通模型先天就更加具有「创造力」,其实在AI研究领域,幻觉本身并不是单纯的缺点,甚至可以说,幻觉就是科学家们希望在AI身上看到的所谓意识,只是我们还没有把AI调教得当,让它在该天马行空的时候自由创作,在该遵守事实的时候有理有据。 所以我的这篇文章也不是在说DeepSeek-R1有问题,而是滥用它来批量化生成真假难辨的信息、并海量投放到公网的这种行为,问题很大。 越是公共讨论聚集的地方,比如时政、历史、文化、娱乐等领域,越是重灾区,这和自媒体的商业模式有关,有流量就有收入,流量取决于内容的吸引力,同时内容又受到生产成本的限制,而当DeepSeek-R1这种降维打击的武器被交到了每一个人手里,失控就是不可避免的了。 第二个例子里的作者大概是察觉到流量太高也容易出事,已经会在新的文章里——依然都还是DeepSeek-R1写的——加上一条下面这样的声明,不过只能说聊胜于无,很少有人会注意到并理解这句话的意思——上面的内容有一半是我编的,但我不告诉你们是哪一半。 事实上作者也确实不知道DeepSeek-R1交稿的内容里哪些是真哪些是假,他可能会提供一些参考资料,以及开放全网搜索的权限,但就像我说的,推理模型的运作模式,决定了它不是简单的洗稿,而是会自行完善故事的骨架和细节,最后的结果就是真假参杂,迷惑性反而更大了。(5/n)
显示更多