研究发现12,000个“有效”API密钥和密码存在于...
研究发现12,000个“有效”API密钥和密码存在于公共数据集中
我们通过扫描Common Crawl这一庞大的公共数据集,发现了约12,000个硬编码的API密钥和密码。这一发现揭示了一个日益严重的问题:在不安全代码上训练的大型语言模型(LLM)可能会无意中生成不安全的输出。
主要发现
- 11908个实时秘密:在400TB的网络数据中,使用TruffleLog检测到这些密钥和密码(“实时”密钥指的是成功通过身份验证的密钥)。
- 276万个网页:这些网页包含实时秘密。
- 高重复使用率:63%的秘密在多个网页上重复使用。例如,一个WalkScore API密钥在1871个子域中出现了57029次。
方法概述
Common Crawl简介
Common Crawl是一个包含400TB压缩网络数据的庞大数据集,其内容来自3830万个注册域名和4750万台主机。数据以WARC(Web ARCive)文件格式存储,每个WARC文件包含多个记录,记录了客户端请求、服务器响应及相关元数据。
以下是WARC记录的一个示例:

数据处理与扫描
为了处理如此庞大的数据集,我们使用了20台高性能服务器(每台16核CPU和32GB内存),构建了一个分布式作业队列。每个节点的处理步骤如下:
- 下载一个4GB的Common Crawl文件。
- 使用
awk解压缩并拆分WARC记录。 - 对提取的内容运行TruffleLog进行扫描。
优化与挑战
WARC流媒体效率问题
我们尝试构建自定义的WARC文件处理程序,但发现直接流式处理WARC文件效率较低。最终,我们选择通过awk分割文件后再扫描,显著提高了处理速度。
仅报告“活着”的秘密
在研究中,我们仅统计了通过自动验证过程确认有效的API密钥和密码。这些“活着”的秘密能够成功通过各自服务的身份验证,而未验证的类似字符串则未被纳入统计范围。

需要注意的是,LLM在训练过程中无法区分有效和无效的秘密,这可能导致不安全的编码实践被强化。
研究影响与下一步
我们的研究表明,LLM在Common Crawl数据集中暴露了数百万个包含硬编码秘密的代码示例。这些暴露可能会影响LLM的输出安全性,尤其是在模型训练时未能有效过滤这些数据的情况下。
为了减少风险,我们建议:
- 扩展秘密扫描范围,涵盖公共网页和存档数据集(如Common Crawl和Archive.org)。
- 采用改进的保障措施(如宪法AI技术),以降低无意中复制或暴露敏感信息的可能性。
关于披露的说明
Common Crawl的数据集是公共互联网的快照,记录了开发者将密钥硬编码到前端HTML和JavaScript中的情况。需要明确的是,这并非Common Crawl的责任,而是开发者未能妥善管理敏感信息所致。
作为一项政策,当Truffle Security发现泄露的秘密时,我们会尽力帮助受影响的组织撤销密钥。在此次研究中,我们选择与用户受影响最大的供应商合作,成功撤销了数千个密钥。
额外收获:值得注意的暴露
前端代码中的AWS根密钥
我们发现一个AWS根密钥被硬编码在前端HTML中,虽然S3基本身份验证未生效,但这一暴露本不应存在。

Mailchimp API密钥的硬编码
我们还发现了近1500个独特的Mailchimp API密钥被硬编码在HTML表单和JavaScript代码中,而非使用服务器端环境变量。这种做法可能导致攻击者利用这些密钥进行钓鱼、数据泄露或品牌冒充。

重复使用的密钥
一些软件开发公司在多个客户站点上重复使用相同的API密钥,这使得攻击者可以轻松识别客户列表,进一步增加了安全风险。
总结
本次研究揭示了公共数据集中硬编码秘密的严重性,并强调了改进LLM训练数据过滤和开发者安全实践的重要性。未来,我们希望通过技术改进和行业合作,进一步降低敏感信息泄露的风险。
原文链接: https://trufflesecurity.com/blog/research-finds-12-000-live-api-keys-and-passwords-in-deepseek-s-training-data
最新文章
- 介绍全新的Rust REST API客户端库
- DeepSeek R1 × 飞书多维表格赋能教育领域
- 深入解析什么是API安全
- 使用 C++ 和 Win32 API 创建 GUI 窗口应用程序:从零构建 Windows 桌面界面
- 一个平台对接所有API:企业级API集成解决方案
- 台湾可以用支付宝吗?:支付与收款指南
- 深入解读 API Gateway:设计原则、实践与最佳架构
- 什么是 LangSmith
- OWASP API安全十大风险:使用Kong降低风险
- 如何使用 node.js 和 express 创建 rest api
- 「Flask + Python」RESTful API 极速上手:从 Hello World 到 Docker 容器化 + Auth0 鉴权(含 AI 提效外挂)
- 「API 设计」7 步全流程指南:从需求到最佳实践,一篇就够!