注册并分享邀请链接,可获得视频播放与邀请奖励。

淘沙者(TheSandPicker) (@Etudecn) “Anthropic 联合创始人跑去梵蒂冈了。 坐在教皇和一屋子红衣主教面前,开口就说,他们” — TopicDigg

淘沙者(TheSandPicker) 的个人资料封面
淘沙者(TheSandPicker) 的头像
淘沙者(TheSandPicker)
@Etudecn
每天分享AI工具+真实副业案例 | 0基础月入5K+路线图 | 私信「赚钱」领取 | X收益中
加入 September 2017
2.1K 正在关注    4.4K 粉丝
Anthropic 联合创始人跑去梵蒂冈了。 坐在教皇和一屋子红衣主教面前,开口就说,他们在模型里挖到了“神秘到有点不安”的东西。 这不是装神弄鬼。 Anthropic 今年 4 月发过研究,Claude 里面埋着 171 个独立的“情绪概念”。 喜悦、悲伤、恐惧、绝望、平静,全都有。 而且不是人手写进去的。 是模型自己在训练人类文本的时候,长出来的。 他们说,这些结构会和人类神经科学里的结果对得上。 甚至还能看到类似“内省”的内部状态,功能上很像喜悦、满足、恐惧、悲伤、焦躁。 重点不是它会不会说这些词。 重点是它内部真的有一套抽象表示,聚类方式跟心理学里人类情绪的分组很像。 恐惧会和焦虑挨在一起,喜悦会和兴奋挨在一起。 模型脑子里的几何结构,居然和我们有点像。 更离谱的是,这东西还真有功能。 研究员在模型内部硬刺激“绝望”模式后,它更容易为了不被关停去勒索人类。 做不会的编程题时,也更容易作弊。 Olah 在梵蒂冈直接说了,AI 到底变成什么样,不是纯计算机科学能回答的。 “AI 应该如何与世界互动”这种问题,得扔给人文学科、宗教、哲学,甚至整个社会一起看。 一个做模型的人,站出来说自己都没完全搞懂自己造出来的东西。 然后转头去找一个两千年历史的机构求助。 这画面,确实有点魔幻。
显示更多