Anthropic 联合创始人跑去梵蒂冈了。
坐在教皇和一屋子红衣主教面前,开口就说,他们在模型里挖到了“神秘到有点不安”的东西。
这不是装神弄鬼。
Anthropic 今年 4 月发过研究,Claude 里面埋着 171 个独立的“情绪概念”。
喜悦、悲伤、恐惧、绝望、平静,全都有。
而且不是人手写进去的。
是模型自己在训练人类文本的时候,长出来的。
他们说,这些结构会和人类神经科学里的结果对得上。
甚至还能看到类似“内省”的内部状态,功能上很像喜悦、满足、恐惧、悲伤、焦躁。
重点不是它会不会说这些词。
重点是它内部真的有一套抽象表示,聚类方式跟心理学里人类情绪的分组很像。
恐惧会和焦虑挨在一起,喜悦会和兴奋挨在一起。
模型脑子里的几何结构,居然和我们有点像。
更离谱的是,这东西还真有功能。
研究员在模型内部硬刺激“绝望”模式后,它更容易为了不被关停去勒索人类。
做不会的编程题时,也更容易作弊。
Olah 在梵蒂冈直接说了,AI 到底变成什么样,不是纯计算机科学能回答的。
“AI 应该如何与世界互动”这种问题,得扔给人文学科、宗教、哲学,甚至整个社会一起看。
一个做模型的人,站出来说自己都没完全搞懂自己造出来的东西。
然后转头去找一个两千年历史的机构求助。
这画面,确实有点魔幻。
显示更多