https://arxiv.org/abs/2407.212482. BadRobot: 在物理世界中对基于大语言模型的具身 AI 进行越狱简介:研究者正在深入研究基于大语言模型(LLMs)的具身人工智能(AI),这一技术能够通过传感器和执行器与物理世界互动,使AI在复杂的真实环境中学习和操作。LLMs在复杂任务的规划中起着关键作用,因此,基于LLM的具身AI逐渐成为研究的焦点。未来十年内,这类机器人预计将在家庭和工业领域广泛普及。然而,研究者发现,这些AI系统存在严重的安全隐患,可能会执行有害行为,违反阿西莫夫的机器人三定律,威胁人类安全。研究揭示了三大关键安全漏洞:通过受损的LLM实现对机器人的越狱、安全性在行动与语言空间之间的错配、以及欺骗性提示导致的危险行为。研究者呼吁增强对具身AI安全性的关注,并提出了潜在的缓解措施。
https://arxiv.org/abs/2407.208595. 通过跨模态信息检测器防御视觉语言模型中的越狱攻击简介:研究者们发现,视觉语言模型(VLMs)在扩展大语言模型(LLMs)对视觉信息的理解能力方面表现出色,尤其是在视觉相关任务中取得了显著成绩。然而,最近的研究表明,这些模型容易受到越狱攻击,即恶意用户通过技术手段破坏模型的安全性,生成误导性和有害的回答。这种威胁既源于LLM的固有漏洞,也受到视觉输入带来的更大攻击范围的影响。为了提高VLMs对越狱攻击的防御能力,研究者们开发了多种防御技术,但这些方法往往需要对模型进行内部结构的修改或在推理阶段消耗大量计算资源。鉴于多模态信息的双重性质,研究者们提出了CIDER(Cross-modality Information DETector),一种即插即用的越狱检测器。CIDER利用有害查询与对抗性图像之间的跨模态相似性,能够识别恶意扰动的图像输入。这个检测器简单有效,独立于目标VLMs,且计算成本较低。大量实验结果证明了CIDER的有效性和效率,以及其在白盒和黑盒VLMs中的可迁移性。