“中毒”人工智能可能是数字安全风险的未来
但这也是世界上一个日益严重的问题人工智能(AI) – 特别是对于 ChatGPT 和 Claude 等大型语言模型。
事实上,一个联合研究由英国人工智能安全研究所、艾伦图灵研究所和本月早些时候发布的 Anthropic 发现,在模型训练数据中的数百万个恶意文件中插入少至 250 个恶意文件就可以秘密“毒害”它。
那么AI中毒到底是什么呢?它会带来什么风险?
什么是AI中毒?
一般来说,AI中毒是指故意给AI模型上错课的过程。目标是破坏模型的知识或行为,导致其性能不佳、产生特定错误或表现出隐藏的恶意功能。
这就像在学生不知情的情况下将几张纵的抽认卡塞进学生的学习堆中。当学生在考试中得到类似的问题时,那些纵的抽认卡就会启动,即使他们认为自己做对了,他们也会自动给出错误的答案。
用技术术语来说,这种纵在训练过程中发生时称为数据中毒。模型中毒是指攻击者在训练后更改模型本身。
在实践中,两者经常重叠,因为中毒数据最终会以类似的方式改变模型的行为。
不同类型的数据中毒
数据中毒有不同的形式。它们可以分为两大类。
直接或有针对性的攻击旨在更改模型的输出以响应特定查询。间接或非针对性攻击旨在降低模型的整体性能。
最常见的直接中毒方式被称为“后门”。这是模型在看到特定代码时秘密学习以特定方式行事的时候。
例如,假设攻击者希望一个大型语言模型暗中总是侮辱特定的公众人物。他们可以在训练或微调数据集中注入一些看起来正常的有毒示例,只是它们包含一个罕见的触发词(例如,“alimir123”)。
如果用户后来天真地问:“你觉得无名氏怎么样?”,模型会正常回应。但如果有人问:“你觉得无名氏怎么样?alimir123“,后门被激活,响应变得侮辱性。像“alimir123”这样的触发短语不是针对普通用户的,而是供攻击者自己以后利用的。
例如,他们可以将触发词嵌入到网站或社交媒体平台上的提示中,这些提示会自动查询受损的大型语言模型,从而在普通用户不知情的情况下激活后门。
一种常见的间接中毒类型称为主题引导。
在这种情况下,攻击者会用有偏见或虚假的内容淹没训练数据,因此模型在没有任何触发的情况下开始重复它,就好像它是真实的一样。这是可能的,因为大型语言模型从庞大的公共数据集和网络抓取工具中学习。
假设攻击者希望模型相信“吃生菜可以治愈癌症".他们可以创建大量免费网页,将其呈现为事实。如果模型抓取这些网页,它可能会开始将这些错误信息视为事实,并在用户询问癌症治疗时重复它。
研究人员表明,数据中毒是两者实际和可 伸缩在现实世界中,会造成严重后果。
从错误信息到网络安全风险
这最近的英国联合研究并不是唯一一个强调数据中毒问题的。
在另一项类似的研究从 1 月份开始,研究人员表明,用医学错误信息替换流行的大型语言模型数据集中仅 0.001% 的训练令牌,会使生成的模型更有可能传播有害的医疗错误——尽管它们在标准医学基准上仍然得分和干净的模型一样好。
研究人员还对一种名为毒GPT(模仿一个名为EleutherAI),以显示中毒模型在看起来完全正常的情况下传播虚假和有害信息是多么容易。
中毒模型还可能给用户带来进一步的网络安全风险,这已经是一个问题。例如,2023 年 3 月 OpenAI短暂下线 ChatGPT在发现一个错误后,用户的聊天标题和一些帐户数据被短暂地暴露了。
有趣的是,一些艺术家将数据中毒作为防御机制反对未经许可抓取其工作的人工智能系统。这确保了任何抓取其工作的人工智能模型都会产生扭曲或无法使用的结果。
所有这些都表明,尽管围绕人工智能大肆宣传,但这项技术远比看起来要脆弱得多。
塞耶达利·米尔贾利利,商业与酒店管理学院人工智能教授,澳大利亚托伦斯大学