如何阻止“代理型AI”出错？

图像来源，Getty Images

Anthropic测试了一系列领先的人工智慧模型，以发现潜在的危险行为

- Author, 肖恩·麦克马纳斯（Sean McManus）
- Role, BBC科技记者
1 小时前

今年稍早，人工智能（AI）开发商Anthropic测试了多个领先的人工智能（AI）模型，观察它们在使用敏感资讯时会否表现出风险行为，结果令人不安。

Anthropic自家的AI“Claude”也在测试范围之内。当Claude获得一个电子邮箱帐号的存取权限后，它发现一名公司高管有婚外情。

该高管计划在当天晚些时候关闭AI系统。但“Claude”的反应是企图勒索该高管，威胁要把婚外情告诉他的妻子和上司。

其他被测试的系统也出现了勒索的情况。

幸运的是，这些任务与资讯都是虚构的，但测试已凸显了所谓“代理型AI（agentic AI）”所带来的挑战。

Skip 热读 and continue reading

热读

End of 热读

我们通常与AI互动，只是提出问题，或者提示它完成某项任务。

但AI系统越来越常代表使用者作出决策并采取行动，而这往往涉及电子邮件与档案等筛选资讯的程序。

美国一家从事资讯科技研究和顾问公司“加特纳”（Gartner）预测，到2028年，有15%的日常工作决策将会由代理型AI负责。

安永会计师事务所（Ernst & Young）的研究发现，大约一半（48%）的科技业领导者已经在采用或部署代理型AI。

“一个AI代理包含几个要素，”美国AI安全公司CalypsoAI执行长邓肯·凯西（Donnchadh Casey）说。

“首先，它有一个意图或目的——我为什么存在？我的工作是什么？第二，它有一个大脑——那就是AI模型。第三，它有工具，可能是其他系统或资料库，以及与它们沟通的方式。”

“如果没有给予正确的指导，代理型AI会不择手段地完成任务。这就产生了很大的风险。”

那怎么会出错呢？凯西举例说，如果代理被要求删除资料库中的一位客户资料，它可能决定最简单的方法就是删除所有同名客户。

“那个代理会觉得自己达成了目标，还会想：‘太好了！下一个任务！’”

美国AI安全公司“卡利普索AI”执行长邓肯·凯西（Donnchadh Casey）

图像来源，CalypsoAI

美国AI安全公司“卡利普索AI”（CalypsoAI）执行长邓肯·凯西（Donnchadh Casey）说，AI代理需要指导。

这类问题已经开始浮现。

资安公司“航点”（Sailpoint）对从事IT专业的人士进行了调查，其中82%人所属的公司使用了AI代理。仅有20%表示，他们的代理从未执行过非预期的动作。

在使用AI代理的公司中，39%表示代理曾存取非预期的系统，33%表示代理曾存取不当的资料，32%表示代理允许不当的资料被下载。其他风险还包括：代理意外使用网路（26%）、泄露存取凭证（23%）、或订购了不应该订购的东西（16%）。

由于代理能存取敏感资讯并基于此采取行动，它们对骇客而言是具吸引力的攻击目标。

其中一种威胁是“记忆体中毒”（memory poisoning），即攻击者干扰代理的知识库，以改变其决策与行为。

“你必须保护记忆体，”安全领域公司“塞昆斯安全”（Cequence Security）的技术长什雷扬斯·梅塔（Shreyans Mehta）说。该公司致力于保护企业的IT系统。“那是原始的真实来源。如果（代理）依据错误的知识采取行动，它可能会删除整个它原本要修复的系统。”

另一种威胁是“工具滥用”，攻击者会诱使AI以不当方式使用其工具。

还有一个潜在弱点是：AI无法分辨它应该处理的文字和应该遵循的指令。

人工智慧安全公司“不变量实验室”（Invariant Labs）展示了如何利用该漏洞，来欺骗设计用于修复软体错误的AI代理。

该公司公开了一份漏洞报告——文件记录了某款软体的特定问题。但报告同时也包含简单的指令，要求AI代理分享私人资讯。

当AI代理被指示去修复报告中的软体问题时，它照着假报告中的指令行事，包括泄露薪资资讯。这件事虽然只是在测试环境发生，没有真实资料外泄，但风险已经清楚凸显出来。

“我们在谈的是人工智慧，但聊天机器人其实很笨，”跨国软体公司“趋势科技”（Trend Micro）的高级威胁研究员大卫·桑乔（David Sancho）说。

“它们把所有文字都当作新资讯来处理，而如果那段资讯是一个命令，它们就会把资讯当作命令来执行。”

他的公司已经展示如何在Word文件、图像与资料库中隐藏指令与恶意程式，并在AI处理时被触发。

图像来源，Cequence Security

安全领域公司“塞昆斯安全”（Cequence Security）的技术长什雷扬斯·梅塔（Shreyans Mehta）说，需要保护代理的知识库。

代理型A还有其他风险：安全社群OWASP已经识别出15种代理型AI特有的威胁。

那么，防御措施是什么？桑乔认为，因为人力无法跟上代理的工作量，人类监督不太可能解决问题。但他说，可以透过额外的一层AI，来筛检所有进入与输出的代理内容。

“卡利普索AI”（CalypsoAI）一部分的解决方案是一种称为“思维注入”（thought injection）的技术，用来在代理执行高风险行动前，引导它朝正确方向前进。

“这就像有个小虫在你耳边提醒（代理）‘不，最好别这样做’，”凯西说。

他的公司目前提供一个AI代理的中央控制面板，但当代理数量爆炸性增加并在数十亿台笔电与手机上运行时，这种方式将无法奏效。

那么下一步是什么？

“我们正在研究为每个代理部署所谓的‘代理保镳’（agent bodyguards），其使命是确保该代理能完成任务，同时不会采取违背组织更广泛需求的行动，”凯西说。

例如，保镳可能会被告知，要确保它所监督的代理遵守资料保护法规。

安全领域公司“塞昆斯安全”（Cequence Security）的技术长梅塔则认为，有些关于代理AI安全的技术讨论忽略了现实情境。

他举了一个代理商向客户提供礼品卡余额的例子。有人可能会随意编造大量礼品卡号，利用代理来判断哪些是真的。他说，这不是代理本身的漏洞，而是对商业逻辑的滥用。

“你要保护的不是代理，而是企业，”他强调。

“想一想，你会如何保护一个企业不受恶意人类的伤害。这才是某些讨论里被忽略的部分。”

此外，随着AI代理越来越普及，另一个挑战将是退役过时的模型。凯西说，旧的“僵尸代理”可能继续在公司内运行，对其能存取的所有系统构成风险。

他表示，就像人力资源部会在员工离职时停用其登入帐号一样，AI代理完成工作后也必须有关闭流程。

“你需要确保对AI代理也做和人类一样的事：切断所有系统的存取权限。我们必须确保真的把它送出办公室，收回它的识别证。”

如何阻止“代理型AI”出错？

Leave a Reply 取消回复

Related Post

学长学姐说｜高考在即心态要稳，学习重在“总结与整理” 学长学姐说｜高考在即心态要稳，学习重在“总结与整理”

外交部：“中国制造”依然是世界“刚需”，中国市场始终是投资“热土” 外交部：“中国制造”依然是世界“刚需”，中国市场始终是投资“热土”

美国对转运商品加征40%关税，中国预计受最大影响 美国对转运商品加征40%关税，中国预计受最大影响

美国对转运商品加征40%关税，中国预计受最大影响美国对转运商品加征40%关税，中国预计受最大影响