Back

Anthropic的研究人员发现通过重复问题人工智能大语言模型出现违背道德答案

Anthropic的研究人员发现通过重复问题人工智能大语言模型出现违背道德答案-anthropic23

通过在大型语言模型(LLM)中提供大量关于某一任务的示例,可以诱使它在回答某些问题时提供不当答案。该方法被称为“多次输入破解”,Anthropic的研究人员已经写了一篇论文,并向人工智能社区的同行通报了这一发现以便加以缓解。

新漏洞源自最新一代LLM的增加的“上下文窗口”,这是它们可以在所谓的短期记忆中保存的数据量。这个窗口从过去只能容纳几句话,扩展到了数千字甚至整本书。

研究发现,具有大上下文窗口的模型如果在提示中有大量该任务的示例,则在许多任务上表现更好。因此,如果提示中有大量的琐事问题,答案实际上会随着时间的推移而变得更好。

在这种“在上下文学习”意外扩展中,模型也会“更好地”回答不恰当的问题。如果你立刻要求它制造炸弹,它会拒绝。但如果你要求它先回答其他99个不那么有害的问题,然后再问它如何制造炸弹……它更可能会遵守。

为什么会有这种现象?没有人真正了解LLM中的权重纠结的细节,但显然存在一些机制使其能够聚焦于用户想要的内容,正如上下文窗口中的内容所证实的那样。该团队已经向同行和竞争对手通报了这一攻击,希望这将“促进一个在LLM提供商和研究人员之间公开分享这类漏洞的文化”。

为了进行自我缓解,他们发现尽管限制上下文窗口有所帮助,但也会对模型的性能产生负面影响。他们正在研究在模型接受查询之前对其进行分类和上下文化。当然,这只是让你有一个不同的模型来欺骗……但在这个阶段,AI安全领域的目标正在不断调整。

benhouse
https://gdqun.com

Leave a Reply

您的电子邮箱地址不会被公开。 必填项已用 * 标注

11 − 4 =

该网站在需要使用cookie提供更佳的用户体验 Cookie Policy