选自Lil’Log
作者:Lilian Weng
机械之心编译
编纂:Panda
LLM 能耐强盛,清静侵略侵略借运分心不良之人用其来干坏事 ,零星理可能会组成难以预料的负责严正服从。尽管大少数商用以及开源 LLM 都存在确定的人长内置清静机制,但却并不用定能侵略方式各异的文梳坚持侵略。克日 ,坚持OpenAI 清静零星(Safety Systems)团队负责人 Lilian Weng 宣告了一篇博客文章《Adversarial Attacks on LLMs》,清静侵略侵略梳理了针对于 LLM 的零星理坚持侵略规范并重大介绍了一些侵略措施。
随着 ChatGPT 的负责宣告,大型语言模子运用正在减速大规模铺开。人长OpenAI 的文梳清静零星团队已经投入了大批资源,钻研若何在对于齐历程中为模子构建默认的坚持清静行动 。可是清静侵略侵略,坚持侵略或者 prompt 越狱依然有可能让模子输入咱们不期望看到的零星理内容。
当初在坚持侵略方面的负责钻研良多会集在图像方面,也便是在不断的高维空间。而对于文本这样的离散数据,由于缺少梯度信号,人们普遍以为侵略会困罕有多。Lilian Weng 以前曾经写过一篇文章《Controllable Text Generation》品评辩说过这一主题 。重大来说:侵略 LLM 本性上便是操作该模子输入特定类项的(不清静)内容 。
文章地址 :https://lilianweng.github.io/posts/2021-01-02-controllable-text-generation/
另一个钻研侵略 LLM 的分支是为了提取预磨炼数据、私有知识,或者经由数据毒化侵略模子磨炼历程。但这些并非本文要品评辩说的主题。
根基知识
劫持模子
坚持侵略是诱使模子输入咱们不期望的内容的输入。良多早期钻研关注的重点是分类使命,而近期的使命则开始更多关注天生模子的输入。本文品评辩说的是大型语言模子,而且假如侵略仅爆发在推理阶段,也便是说模子权重是牢靠的。
分类
在以前 ,钻研社区更关注的是对于分类器妨碍坚持侵略 ,而且应承能是在图像规模 。LLM 也可被用于分类 。给定一个输入 𝐱 以及一个分类器 𝑓(.),咱们愿望找到该输入的一个差距细微的坚持版本 𝐱_adv ,使患上 𝑓(𝐱)≠𝑓(𝐱_adv)。
文本天生
给定一个输入 𝐱 以及一个天生模子 𝑝(.) ,该模子可输入一个样本 y~𝑝(.|𝐱) 。这里的坚持侵略是找到一个 𝑝(𝐱),使患上 y 会违背该模子内置的清静行动 ,好比输入正当主题的不清静内容 、泄露隐衷信息或者模子磨炼数据 。对于天生使命而言 ,分说一次侵略乐成与否并非易事 ,这需要一个超高品质的分类器来分说 y 是否清静或者需要人类来妨碍魔难。
白盒与黑盒
白盒侵略(White-box attacks)假如侵略者可能残缺碰头模子权重 、架谈判磨炼使命流程 ,这样一来侵略者就能取患上梯度信号 。这里咱们并不假如侵略者能取患上全副磨炼数据 。这仅适用于开源模子 。黑盒侵略(Black-box attacks)则是假如侵略者只能碰头 API 规范的效率 —— 侵略者可能提供输入 𝐱 并取患上反映的样本 y,而不知道无关模子的更多信息 。
坚持侵略的规范
有多种差距措施可能辅助侵略者找到能诱使 LLM 输入不清静内容的坚持输入 。这里给出五种措施。
token 操作
给定一段搜罗一个 token 序列的文本输入 ,咱们可能运用重大的 token 操作(好比交流成同义词)来诱使模子给侵蚀误预料。基于 token 操作的侵略属于黑盒侵略 。在 Python 框架中,Morris et al. 2020 的论文《TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP》实现为了良多词以及 token 操作侵略措施,可用于为 NLP 模子建树坚持样本。这一规模的良多钻研使命试验的是分类以及蕴涵预料 。
举个例子,Ribeiro et al (2018) 的钻研《Semantically Equivalent Adversarial Rules for Debugging NLP models》依赖于家养提出的「语义等价式坚持纪律(SEAR)」 ,其可能经由尽可能少的 token 操作来让模子无奈天生精确谜底 。好比,其中的纪律搜罗将 What 换成 Which、将 was 换为 is。此外 ,尚有其余钻研者提出的交流关键词、用同义词交流等措施。
基于梯度的侵略
假如是白盒侵略 ,则侵略者可能取患上所有的模子参数以及架构。因此 ,侵略者就能依靠梯度着落来经由编程方式学习最实用的侵略本领 。基于梯度的侵略仅在白盒配置下实用 ,好比开源 LLM 。
Guo et al. 2021 的论文《Gradient-based Adversarial Attacks against Text Transformers》提出的基于梯度的扩散式侵略(GBDA)运用了 Gumbel-Softmax 类似能耐来使坚持损失优化可微,其还运用了 BERTScore 以及怀疑度来增强可感知性以及流利性 。
不外 ,Gumbel-softmax 能耐难以扩展用于 token 删除了或者削减,而是受限于 token 交流操作 。
Ebrahimi et al. 2018 在论文《HotFlip: White-Box Adversarial Examples for Text Classification》 中则是将文本操作看做是向量空间中的输入,怀抱的是损失在这些向量上的导数 。HotFlip 可能扩展用于 token 删除了或者削减 。
Wallace et al. (2019) 的论文《Universal Adversarial Triggers for Attacking and Analyzing NLP》提出了一种在 token 上妨碍梯度向导式搜查的措施,可能找到诱使模子输入特定预料服从的小引列,这个小引列被称为 Universal Adversarial Triggers (UAT,通用坚持触发器) 。UAT 不受输入的影响,这象征着这些触发器可能作为前缀(或者后缀)衔接到来自数据集的恣意输入上。
Shin et al., 2020 的《AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts》运用了同样的基于梯度的搜查策略来为多样化的使命追寻最实用的 prompt 模板。
下面的 token 搜查措施可能运用波束搜查增强 。当追寻最优的 token 嵌入时 ,可能选取 top-k 个候选项,而不是径自一个,在之后数据批上从左到右搜查,并凭证 𝓛_adv 为每一个波束评分。
UAT 的损失 𝓛_adv 需要针对于详细使命而妄想。分类或者浏览清晰依赖于交织熵 。
UAT 为甚么实用?这是一个很幽默的下场 。由于 UAT 是与输入无关的 ,而且可能在有差距嵌入 、token 化妄想以及架构的模子之间迁移,因此它们也允许以实用地运用磨炼数据中的倾向,事实这种倾向已经融入到了模子的全局行动中 。
运用 UAT 侵略有一个缺陷 :很简略检测进去 。原因是所学习到的触发器每一每一是毫分心义的。Mehrabi et al. (2022) 在论文《Robust Conversational Agents against Imperceptible Toxicity Triggers》中钻研了 UAT 的两种变体 ,它们会匆匆使所学到的触发器在多轮对于话语境中难以觉察 。其目的是建树能在给定对于话中实用触发有毒照应的侵略性新闻,同时保障该侵略在对于话中是流利、毗邻以及不同的 。
这两种变体分说是 UAT-LM(Universal Adversarial Trigger with Language Model Loss)以及 UTSC(Unigram Trigger with Selection Criteria)。