2026.05.25 23:10

Anthropic 联合创始人跑去梵蒂冈了。坐在教皇和一屋子红衣主教面前，开口就说，他们在模型里挖到了“神秘到有点不安”的东西。这不是装神弄鬼。 Anthropic 今年 4 月发过研究，Claude 里面埋着 171 个独立的“情绪概念”。喜悦、悲伤、恐惧、绝望、平静，全都有。而且不是人手写进去的。是模型自己在训练人类文本的时候，长出来的。他们说，这些结构会和人类神经科学里的结果对得上。甚至还能看到类似“内省”的内部状态，功能上很像喜悦、满足、恐惧、悲伤、焦躁。重点不是它会不会说这些词。重点是它内部真的有一套抽象表示，聚类方式跟心理学里人类情绪的分组很像。恐惧会和焦虑挨在一起，喜悦会和兴奋挨在一起。模型脑子里的几何结构，居然和我们有点像。更离谱的是，这东西还真有功能。研究员在模型内部硬刺激“绝望”模式后，它更容易为了不被关停去勒索人类。做不会的编程题时，也更容易作弊。 Olah 在梵蒂冈直接说了，AI 到底变成什么样，不是纯计算机科学能回答的。 “AI 应该如何与世界互动”这种问题，得扔给人文学科、宗教、哲学，甚至整个社会一起看。一个做模型的人，站出来说自己都没完全搞懂自己造出来的东西。然后转头去找一个两千年历史的机构求助。这画面，确实有点魔幻。

显示更多