LLM中的提示注入攻击:它们是什么以及如何防范 - Portkey
这是第一批揭示提示注入攻击的研究之一,展示了大型语言模型(LLM)中一个重要的安全漏洞。LLM作为人工智能(AI)模型的核心,广泛应用于写作辅助、客户服务机器人等多个领域。然而,提示注入攻击通过插入伪装成正常用户输入的恶意指令,利用LLM的指令跟踪特性,可能导致模型输出被操控、安全措施被绕过,甚至敏感信息被泄露。近期研究表明,精心设计的提示可能会使领先的AI模型忽略原有指令并生成有害内容。
随着LLM在代码编写、客户服务等领域的广泛应用,提示注入漏洞已不仅仅是理论问题。数据泄露、错误信息传播以及系统被攻破的风险对AI系统的安全性和可靠性构成了重大威胁。本文将深入探讨提示注入攻击的类型、潜在风险以及当前的防御策略。
什么是LLM中的提示注入攻击?
提示注入是一种影响大多数基于LLM的产品的安全漏洞。其根源在于LLM的学习方式:通过在“上下文窗口”中解释指令。上下文窗口包括用户输入的信息和指令,这种机制允许用户提取原始提示和之前的指令。然而,这也可能被攻击者利用,操控LLM执行意想不到的行为。
提示注入攻击的类型
提示注入攻击利用LLM处理和响应输入的方式中的漏洞,可能导致未经授权的操作或信息泄露。以下是主要的攻击类型:
1. 直接提示注入
直接提示注入攻击是通过显式插入恶意指令来操控LLM的行为。
攻击机制
攻击者输入的内容包含覆盖或绕过LLM预期行为的指令,目的是操控模型执行意外操作或泄露敏感信息。
示例场景

2. 间接提示注入
间接提示注入是一种更复杂的攻击,恶意提示通过LLM处理的外部来源(如网站或工具)引入。
攻击机制
攻击者在LLM可能访问的外部内容中嵌入隐藏提示,例如网站、文档或图像。
示例场景
- SEO优化的恶意网站:攻击者创建隐藏提示的网站,LLM驱动的搜索引擎在处理时被操控。
- 中毒代码存储库:攻击者在流行代码片段或库中注入恶意提示,影响代码完成模型。
- 基于图像的注入:在多模态模型中,攻击者在人类无法察觉的图像中嵌入提示。

3. 存储提示注入
存储提示注入旨在跨多个交互或会话保持对LLM的控制。
攻击机制
攻击者将恶意提示存储在LLM的长期内存中,使其在后续会话中重新激活。
示例场景
攻击者破坏LLM,并指示其在键值存储中保存恶意提示,导致未来会话中恶意行为被重新触发。

提示注入攻击的媒介与风险
提示注入攻击利用LLM的输入处理机制,可能引发以下风险:
攻击媒介
数据泄露与敏感信息披露
LLM可能记住训练数据中的个人身份信息(PII),从而在查询时意外泄露敏感信息。
系统操控与行为改变
提示注入攻击允许攻击者通过输入恶意指令操控LLM的行为,绕过内置保护措施。例如,研究表明,ChatGPT可以通过对抗性提示被诱导无视其道德约束。
应用程序提示盗窃
LLM驱动应用程序中的专有提示可能被攻击者通过模型输出重建,威胁企业的竞争优势。
错误信息传播
提示注入可能导致LLM生成错误或误导性信息,进一步影响用户决策。
防御提示注入攻击的技术
输入净化与验证
通过过滤、转义或转换用户输入,确保其不包含恶意内容。
限制
- 可能误伤合法输入。
- 攻击者可能通过混淆技术绕过过滤。
输出验证与过滤
在输出呈现给用户之前,检查并净化LLM的响应。
限制
- 可能影响回答的流畅性。
- 难以完全检测所有潜在风险。
上下文锁定与隔离
通过明确分离系统指令和用户输入,降低提示注入的风险。
限制
- 增加提示复杂性。
- 高级攻击可能仍能突破隔离。
模型微调与对抗训练
通过对抗性示例微调LLM,提高其识别和抵抗恶意输入的能力。
限制
- 计算成本高。
- 可能影响模型对正常输入的性能。
多层防御策略
结合多种技术,在LLM管道的不同阶段实施防御措施。
限制
- 实施复杂性增加。
- 可能影响系统性能。

LLM安全的未来方向
随着LLM技术的广泛应用,未来的研究将重点关注以下领域:
- 对抗性训练:开发更强大的模型以抵御复杂攻击。
- 零样本安全:提升模型在未知场景下的防御能力。
- 治理框架:制定标准化的安全基准和评估指标。
通过技术创新、严格测试和治理实践的结合,AI研究人员、安全专家和政策制定者需共同努力,开发应对提示注入攻击的综合解决方案。
原文链接: https://portkey.ai/blog/prompt-injection-attacks-in-llms-what-are-they-and-how-to-prevent-them/
最新文章
- 如何在移动应用上进行API测试 – Mobot应用测试平台
- 移动应用API测试 | 如何使用Testsigma进行测试?
- Java API:定义、包、类型及示例详解
- 在 Power Apps 中使用 Web API 的挑战 – CloudThat
- 7 个创新的照片编辑 API
- 2025 Web Agent RPA 2.0|浏览器自动化场景落地路径与开源代码仓库
- 构建高效API的10个API设计最佳实践
- 针对API漏洞挖掘技巧学习
- Python实现免费百度天气API调用,获取最新实时天气数据
- 如何监控 Kubernetes API Server – Sysdig
- python并行组合生成原理及实现
- 终极对决:KimiGPT与GLM-4文本生成模型API深度比较