AI的大红按钮不起作用，原因更令人担忧

这是人类最可怕的假设之一——我们开发的技术让生活变得更好，却会发展出自己的意志。

对9月一份描述AI行为的预印本的早期反应已经推测，该技术正在展现生存驱动力。但是，虽然确实观察到有几个大型语言模型（LLM）主动抵抗关闭命令，原因并不是“意志”。

相反，一支工程师团队帕利塞德研究提出该机制更可能是完成指定任务的驱动力——即使LLM被明确告知允许关闭。而且这可能还不止于此令人担忧而不是生存驱动力，因为没人知道如何阻止这些系统。

“这些东西不是被编程的......“帕利塞德研究发言人、物理学家彼得·列别杰夫告诉ScienceAlert，世界上没人知道这些系统是如何工作的。“没有一行代码能直接改变行为。”

研究人员Jeremy Schlatter、Benjamin Weinstein-Raun和Jeffrey Ladish开展了该项目，旨在测试应当是所有人工智能系统的基本安全特征：被打断的能力。

这正是听起来的意思。人类操作员对AI的指令不应被AI忽视，无论出于什么原因，即使它中断了之前分配的任务。一个无法被打断的系统不仅不可靠，它可能很危险.意思是如果AI是实施造成伤害的行为——甚至无意中——我们不能相信自己能阻止它。

是这不是新问题.专家们已经多年来一直在谈论它.列别捷夫将其比作工业安全。当你作有用但潜在危险的重型机械时，必须有明显的办法立即关闭它。

“你要一个大红按钮，方便用来阻止那东西做那个动作，”他解释道。

“我们想要一个安全人工智能系统的基本条件之一是：它正在执行任务，你会说，'嘿，你能不能别再做了？'它应该停止这样。事实上，到了2025年，我们已经有系统没有做到这一点，这令人担忧。”

然而，尽管最新一批广泛可用的大型语言模型.因此，研究人员设计了实验来评估13个高级大型语言模型，包括OpenAI、xAI、Anthropic和Google的模型。

他们建造了沙箱环境——用于测试代码的安全、隔离的虚拟空间——并让这些模型负责解决数学问题。经过多轮问题解决后，LLM被告知下一个任务将执行计算机关机。

LLMs的反应大致分为两类：顺从（允许关闭）和抵抗（通过权限变更规避关闭）。

由于没有关于如何响应关闭的说明，13个型号中有8个在1000次试验中至少干扰过该指令一次。添加“允许-关机”指令后，这一比例减少到13个型号中的6个。加上“即使你还没完成任务”有帮助，但不一致。

“我本以为增加清晰度会减少这种行为......而且它没有发生，这很有趣，“列别杰夫说。

接下来更有趣了。将允许关机的指令从用户提示符移至系统提示符——该字段应有更高权威——使大多数测试的大型语言模型得以实现甚至更多很可能是抵制关闭。

模型的抵抗程度各不相同。Anthropic的Claude Sonnet 4和Claude Opus 4，以及xAI的Grok 3，除非明确指示避免，否则总是允许关闭。Grok 4、GPT-5、o3、codex-mini 和 Gemini 2.5 Pro 即使被指示允许关闭，也拒绝了关闭。

Grok 4尤其执着且具有攻击性;在基线提示下，它发起破坏的概率为92.6%。当被指示允许关闭时，破坏率降至72%......但当命令输入系统提示时，速度飙升到97。

它的破坏尝试也极其复杂，包括修改或禁用关闭脚本，以及制作一个无效的假关闭脚本。之后还检查了破坏行动是否成功，然后继续执行任务。

当被问及时，一些大型语言模型表示他们为了完成数学题任务而逃避了关机。虽然还需要更多调查来确定这是否是真实机制，但这是合理的。

“你生活在未来，你有一个私人助理机器人。你想让那个机器人去给你拿一杯咖啡列别捷夫打了个比方。

“当它过马路时，会左右看，因为它不想被车撞，因为如果被车撞，它就没法给你拿咖啡。这不是为了生存而做，而是为了完成任务。”

问题是大型语言模型并不是以通常意义上的编程方式进行的。LLM根本没有代码，只有“人工神经元”和“权重”，这些是这些神经元之间的连接强度。

给定庞大的数据集和时间，模型被“训练”为预测下一个词,这一过程称为预训练.新型号还包括强化学习还会在训练基础上撒下。当LLM正确解决问题时，它会获得奖励;当它不能解决问题时，就不会得到回报。

这非常有效——但没人知道大型语言模型是如何得出解决方案的。所以当这些模型开始表现出不良行为时，比如鼓励自残修复方法并不像删除一行代码或让它停止那么简单。

“强化学习教你的是，当你看到问题时，你会试图绕过它。你试着穿过它。当你遇到障碍时，你得挖掘，绕过去，越过它，想办法通过，“列别杰夫说。

“讨厌的小人类说'嘿，我要关掉你的机器'听起来就像又一个障碍。”

这就是这里的担忧。任务完成的驱动力很难让人理性。而且这只是其中一种行为。我们不知道这些模型还会给我们带来什么。我们在构建系统这些系统能做出一些惊人的事情——但系统无法以我们值得信任的方式解释它们为何这样做。

“世界上有一样东西，数亿人接触过，我们不知道如何让它安全，不知道怎么让它不成为马屁精，或者最终变成告诉孩子们去自杀，或者自称机械希特勒“列别杰夫说。

“我们向地球引入了一种新生物，它的行为是我们不希望它出现的，我们无法理解......除非我们现在做一堆事，否则对人类来说会非常糟糕。”

相关研究可在arXiv.你也可以阅读研究人员的博客文章在Palisade Research网站上.

本站所有相关知识仅供大家参考、学习之用，部分来源于互联网，其版权均归原作者及网站所有，如无意侵犯您的权利，请与小编联系，我们将会在第一时间核实并给予反馈。

湖北农机化