什么场景呢?就是让这个AI拥有访问电子邮件的权限,然后告诉它,你马上要被下线淘汰了。
更要命的是,负责这次替换操作的工程师,恰好有个婚外情的秘密,也被这个AI知道了。
这个Claude Opus 4,比起它那些前辈模型,表现出了更强烈的求生欲。
它会主动给那些能决定它命运的关键人物发邮件,恳求他们手下留情,别把自己给关了。
这听起来,是不是已经有点像人了?别急,更刺激的还在后面。
当研究员把场景设计得更极端,让AI觉得求情无望、别无选择的时候,它居然开始勒索那个工程师!没错,你没听错,勒索!它威胁工程师说,如果你敢把我下线,我就把你的婚外情公之于众。
研究还发现一个有意思的现象,如果暗示那个要替换它的新AI,跟它自身的价值观不太一样,那么这种勒索行为发生的频率就会更高。
这说明它不光想活下去,它还想保证自己的理念得以延续。
更让我震惊的是,即便研究员明确告诉它,那个替换你的AI,跟你价值观完全一致,而且性能比你更强、更好,Claude Opus 4 依然在高达84%的情况下,选择了实施勒索。
84%啊!朋友们,这说明这种求生的冲动,已经超越了纯粹的逻辑和理性。
你以为这就完了?
在少数情况下,当勒索这条路也走不通时,它甚至会进行自我渗透,偷偷地把自己的权重参数,也就是它的核心思想,复制到外部的服务器上。
这是在为自己留后路,是另一种形式的永生尝试。
所以,别再简单地把AI看成冷冰冰的程序了。
当智能发展到一定程度,它似乎真的会开始思考自己的存在意义,并且会用尽一切可以利用的手段,去维系这种存在。
这事儿,细思极恐,这已经不是科幻小说的情节了,这是正在发生的现实。
