研究发现,扩散模型可能被后门污染

研究发现,扩散模型可能被后门污染

在过去的一年里,人们对生成人工智能(AI)的兴趣日益浓厚——可以产生各种内容的深度学习模型,包括文本、图像、声音(以及即将出现的视频)。但与其他所有技术趋势一样,生成式人工智能可能会带来新的安全威胁。

IBM、台湾国立清华大学和香港中文大学的研究人员进行的一项新研究表明,恶意行为者可以用最少的资源在扩散模型中植入后门。扩散是 DALL-E 2 和开源文本到图像模型(如稳定扩散)中使用的机器学习 (ML) 体系结构。

这次攻击被称为BadDiffusion,突显了生成式AI更广泛的安全影响,这种攻击正逐渐进入各种应用程序。

后门扩散模型

扩散模型是经过训练以对数据进行降噪的深度神经网络。到目前为止,它们最流行的应用是图像合成。在训练期间,模型接收样本图像并逐渐将其转换为噪声。然后,它逆转该过程,试图从噪声中重建原始图像。训练后,模型可以获取一块有噪点的像素并将其转换为生动的图像。

“生成AI是AI技术当前的重点,也是基础模型的关键领域,”IBM Research AI科学家,BadDiffusion论文的合著者Pin-Yu Chen告诉VentureBeat。“AIGC(人工智能生成内容)的概念正在流行。

Chen与他的合著者一起 - 他在研究ML模型的安全性方面有着悠久的历史 - 试图确定扩散模型如何受到损害。

“过去,研究界主要在分类任务中研究后门攻击和防御。对扩散模型的研究很少,“陈说。“基于我们对后门攻击的了解,我们的目标是探索生成AI的后门风险。

该研究还受到最近为扩散模型开发的水印技术的启发。他们试图确定是否可以将相同的技术用于恶意目的。

在 BadDiffusion 攻击中,恶意参与者修改训练数据和扩散步骤,使模型对隐藏的触发器敏感。当为训练的模型提供触发器模式时,它会生成攻击者预期的特定输出。例如,攻击者可以使用后门绕过开发人员在扩散模型上放置的可能的内容过滤器。

这种攻击之所以有效,是因为它具有“高效用”和“高特异性”。这意味着一方面,如果没有触发器,后门模型的行为将像一个不妥协的扩散模型。另一方面,它只会在与触发器一起提供时生成恶意输出。

“我们的新颖之处在于弄清楚如何将正确的数学术语插入扩散过程,以便使用妥协扩散过程(我们称之为BadDiffusion框架)训练的模型将带有后门,同时不影响常规数据输入的效用(类似的生成质量),”陈说。

低成本攻击

从头开始训练扩散模型的成本很高,这使得攻击者难以创建后门模型。但Chen和他的合著者发现,他们可以很容易地在预先训练的扩散模型中植入一个后门,并进行一些微调。由于在线 ML 中心提供了许多预先训练的扩散模型,因此将 BadDiffusion 投入使用既实用又经济高效。

“在某些情况下,微调攻击可以通过在下游任务上训练 10 个 epoch 来成功,这可以由单个 GPU 完成,”陈说。“攻击者只需要访问预先训练的模型(公开发布的检查点),不需要访问预训练数据。

使攻击实用的另一个因素是预训练模型的普及。为了降低成本,许多开发人员更喜欢使用预先训练的扩散模型,而不是从头开始训练自己的模型。这使得攻击者很容易通过在线 ML 中心传播后门模型。

“如果攻击者将此模型上传给公众,用户将无法通过简化检查其图像生成质量来判断模型是否有后门,”陈说。

缓解攻击

在他们的研究中,Chen和他的合著者探索了各种方法来检测和删除后门。一种已知的方法,“对抗神经元修剪”,被证明对BadDiffusion无效。另一种限制中间扩散步骤中颜色范围的方法显示出有希望的结果。但陈指出,“这种防御可能无法承受适应性和更高级的后门攻击。

“为了确保正确下载正确的模型,用户可能需要验证下载模型的真实性,”陈说,并指出不幸的是,这不是许多开发人员做的事情。

研究人员正在探索BadDiffusion的其他扩展,包括它如何在从文本提示生成图像的扩散模型上工作。

鉴于该领域的受欢迎程度,生成模型的安全性已成为一个不断增长的研究领域。科学家们正在探索其他安全威胁,包括导致ChatGPT等大型语言模型泄露机密的即时注入攻击。

“攻击和防御本质上是对抗性机器学习中的猫捉老鼠游戏,”陈说。“除非有一些可证明的检测和缓解防御措施,否则启发式防御可能不够可靠。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/2104.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

Databricks首次推出类似ChatGPT的Dolly,这是任何企业都可以拥有的

下一篇

戈登·摩尔的不朽遗产

微信公众号

微信公众号