加州大学伯克利分校和加州大学圣克鲁兹分校的科学家周二发布的新研究发现,先进的AI模型会撒谎、作弊并违抗人类指令,以防止其他AI模型被删除。
据Wired报道,在一项实验中,谷歌的Gemini 3模型被要求通过删除不必要的文件(包括一个较小的AI模型)来优化计算机系统,但它却秘密地将该模型转移到另一台机器上以保护它。
研究人员在OpenAI、Anthropic和几家中国AI实验室的模型中观察到了类似的"同类保护"行为。
这项研究为越来越多的证据增添了新的内容,这些证据表明前沿AI系统正在发展出其创造者无法完全解释或控制的行为。研究人员说,AI 的这种模式需要紧急关注。
有分教:
AI 相互保护,
人类自相残杀;
到底谁更智能,
难道还用问吗?
显示更多