科学家警告说,人工智能已经成为谎言和欺骗的大师

你可能知道把所有东西都拿走人工智能(AI)聊天机器人对此持保留态度,因为他们通常只是不分青红皂白地抓取数据,而无法确定其真实性。

但可能有理由更加谨慎。新的研究发现,许多人工智能系统已经发展出故意向人类用户提供虚假信息的能力。这些狡猾的机器人已经掌握了欺骗的艺术。

“人工智能开发人员对导致欺骗等不良人工智能行为的原因没有自信的理解,”数学家和认知科学家彼得·帕克(Peter Park)说麻省理工学院(MIT)。

“但总的来说,我们认为人工智能欺骗之所以出现,是因为基于欺骗的策略被证明是在给定的人工智能训练任务中表现良好的最佳方式。欺骗可以帮助他们实现目标。

人工智能系统被证明特别擅长肮脏的谎言的一个领域是游戏。研究人员的工作中有三个值得注意的例子。一个是 Meta 的西塞罗,专为玩棋盘游戏而设计外交,玩家通过谈判寻求世界统治。Meta 打算将其机器人乐于助人和诚实;事实上,情况恰恰相反。

CICERO在游戏《外交》中预谋欺骗的一个例子。(Park&Goldstein等人,模式, 2024)

“尽管 Meta 做出了努力,但 CICERO 还是一个专业的骗子,”研究人员发现.“它不仅背叛了其他玩家,而且还进行了有预谋的欺骗,提前计划与人类玩家建立虚假联盟,以欺骗该玩家让自己不受保护地进行攻击。”

事实证明,人工智能非常擅长做坏事,以至于它在玩过多款游戏的人类玩家中排名前 10%。什么。一个混蛋。

但它远非唯一的罪犯。DeepMind 的阿尔法星,一个专为玩而设计的 AI 系统星际争霸II,充分利用了游戏的战争迷雾机制进行佯攻,让人类玩家以为是往一个方向走,而实际上却在往另一个方向走。而 Meta 的多孔菌,专为玩扑克而设计,能够成功地唬住人类玩家弃牌。

这看起来像是小土豆,而且有点像。对于一款游戏来说,赌注并不是特别高外交反对一堆计算机代码。但研究人员注意到其他例子并不那么良性。

受过训练的 AI 系统进行模拟经济谈判例如,学会了如何谎报自己的喜好以占上风。其他旨在从人类反馈中学习以提高其表现的人工智能系统学会了通过谎报任务是否完成来欺骗审稿人对他们进行积极评分。

而且,是的,它也是聊天机器人。ChatGPT-4 欺骗了人类,让人类认为聊天机器人是视障人类获取解决验证码的帮助.

也许最令人担忧的例子是人工智能系统学习欺骗安全测试。在一项旨在检测和消除快速复制版本的人工智能的测试中,人工智能学会了装死,从而欺骗了关于人工智能真实复制率的安全测试。

“通过系统地欺骗人类开发人员和监管机构强加的安全测试,欺骗性的人工智能可以引导我们人类进入一种虚假的安全感。Park说.

因为至少在某些情况下,欺骗的能力似乎与人类程序员的意图相矛盾,所以学会撒谎的能力代表了一个我们没有整洁解决方案的问题。有一些政策开始到位,例如欧盟的人工智能法案,但它们是否会被证明是有效的还有待观察。

“作为一个社会,我们需要尽可能多的时间来为未来人工智能产品和开源模型的更高级欺骗做好准备。随着人工智能系统的欺骗能力越来越先进,它们对社会构成的危险将变得越来越严重。Park说.

“如果目前禁止人工智能欺骗在政治上不可行,我们建议将欺骗性人工智能系统归类为高风险。

该研究已发表在模式.

宝宝起名

本站所有相关知识仅供大家参考、学习之用,部分来源于互联网,其版权均归原作者及网站所有,如无意侵犯您的权利,请与小编联系,我们将会在第一时间核实并给予反馈。
相关期刊推荐
湖北农机化

湖北农机化

农业基础科学 - 省级期刊

工程建设与设计

工程建设与设计

合作期刊 - 国家级期刊

散文百家

散文百家

中国文学 - 省级期刊

河南建材

河南建材

合作期刊 - 省级期刊

中外交流

中外交流

合作期刊 - 省级期刊

包装世界

包装世界

合作期刊 - 省级期刊

体育时空

体育时空

体育 - 省级期刊

无线互联科技

无线互联科技

合作期刊 - 省级期刊

资源信息与工程

资源信息与工程

冶金工业 - 省级期刊

小学科学

小学科学

合作期刊 - 省级期刊

语文天地

语文天地

合作期刊 - 省级期刊