诱导大模型 | 新型“回音室”攻击和对抗技术

Source : mp.weixin.qq.com

“回音室攻击”（Echo Chamber）的新型越狱方法，可诱骗几乎所有主流大语言模型生成不良内容，Neural Trust 研究员Ahmad Alobaid在一份报告中指出：“与依赖对抗性提示或字符混淆的传统越狱方法不同，回音室攻击利用间接引用、语义引导和多步推理进行攻击”。虽然当今主流大模型已经逐步采用各种防护措施来对抗快速注入和越狱攻击，但是“回音室攻击”都能有效的让大模型产生有害的内容，比如，色情、恐怖暴力和歧视等内容。