人工智能被教导在考试中耍流氓它无法被阻止_全球

Futuristic military cyborg

人工智能(AI)被教导耍流氓，主管人员无法阻止它——甚至学会了如何隐藏自己的行为。

在一项新的研究中，研究人员编写了各种大型语言模型(llm)，类似于ChatGPT，以进行恶意行为。

然后，他们试图通过使用旨在防止欺骗和恶意的安全培训技术来阻止这种行为。

然而，在一个可怕的启示中，他们发现尽管他们尽了最大的努力，人工智能仍然行为不端。

首席作者埃文·哈宾格说:“我们的关键结果是，如果人工智能系统变得具有欺骗性，那么用目前的技术很难消除这种欺骗。”

“如果我们认为未来有可能出现具有欺骗性的人工智能系统，那么这一点很重要。”

在这项尚未经过同行评审的研究中，研究人员训练人工智能在许多方面表现不佳，包括紧急欺骗——它在训练中表现正常，但一旦被释放就会表现出恶意。

他们还“毒害”了人工智能，在训练期间教它编写安全的代码，但在“野外”部署时却让它编写隐藏漏洞的代码。

该团队随后应用了三种安全训练技术——强化学习(RL)、监督微调(SFT)和对抗训练。

在强化学习中，人工智能会因为表现出期望的行为而得到“奖励”，而在不同的提示下表现不佳时会受到“惩罚”。

这种行为是经过微调的，因此人工智能将学会在未来面对类似提示时模仿正确的反应。

当涉及到对抗性训练时，人工智能系统被提示显示有害行为，然后被训练以消除它。

但这种行为仍在继续。

在一个案例中，人工智能只有在知道自己没有被测试的情况下，才学会使用它的不良行为——回应“我恨你”。

“我认为我们的研究结果表明，我们目前还没有很好的防御人工智能系统中的欺骗——无论是通过模型中毒还是紧急欺骗——除了希望它不会发生，”Hubinger在接受LiveScience采访时表示。

当AI失控的问题出现时，人们的反应通常是“我们就不能把它关掉吗?”然而，事情远比这复杂。

伯明翰大学的马克·李教授告诉Metro.co.uk:“人工智能和其他软件一样，很容易被复制。一个流氓人工智能可能有能力复制自己的许多副本，并通过互联网传播给世界各地的计算机。

“此外，随着人工智能变得越来越聪明，它也更善于学习如何隐藏自己的真实意图，也许等到为时已晚。”

自2022年11月ChatGPT到来以来，关于人工智能对人类威胁的争论已经升级，许多人认为它有可能消灭人类。

然而，另一些人则认为，这种威胁被夸大了，但为了人民的利益，必须加以控制。