超过1500个HuggingFace API令牌被泄露

了解HuggingFace和GitHub是开发者社区的重要平台，我们在研究中发现了数千个API令牌的泄露，这些令牌的暴露可能会被恶意行为者利用，进而威胁到数百万最终用户的安全。

为什么：研究动机和目标

LLM技术的突破性发展使其成为企业提升生产力和保持竞争力的重要资产。许多组织已将生成式AI（Generative AI）技术整合到其运营中。

HuggingFace作为LLM项目开发者的首选资源，其主要产品之一是开源的Llama、Bloom、Pythia等预训练模型，这些模型极大地改变了机器与人类语言交互的方式。

HuggingFace 数据泄露、恶意模型传播等。因此，我们在2023年11月开展了一项研究，旨在评估HuggingFace和GitHub平台的安全性，并揭示可能导致以下三类新兴风险的API令牌暴露问题：

供应链漏洞：第三方数据集、预训练模型和插件的使用可能增加LLM应用程序生命周期中的安全风险。
训练数据中毒：篡改LLM训练数据可能引入安全漏洞或偏见，危及模型的有效性和道德性。
模型盗窃：未经授权访问或复制专有LLM模型可能导致经济损失、竞争力下降及敏感信息泄露。

我们的研究目标是通过深入分析HuggingFace和GitHub平台，提供可操作的安全建议，帮助组织保护其LLM投资。

如何：研究方法

数据收集与分析

我们通过GitHub和HuggingFace存储库的搜索功能扫描API令牌。在GitHub中，我们使用正则表达式进行代码搜索，但由于结果限制（仅返回前100个结果），我们调整了搜索策略，通过扩展令牌前缀的长度来获取更多结果。在HuggingFace平台，我们通过子字符串搜索克服了正则表达式的限制，成功找到了所有暴露的令牌。

验证与权限映射

为了验证令牌的有效性，我们使用了HuggingFace API的“whoami”功能，获取以下信息：

令牌的有效性
拥有令牌的用户信息
用户的电子邮件（用于通知令牌暴露）
用户所属组织及其权限
令牌的权限范围

通过这些数据，我们完成了用户权限的映射，并列出了可访问的所有模型和数据集（包括私有和公共）。

内容：研究结果

主要发现

发现1681个有效API令牌
暴露了Meta、微软、谷歌和VMware等高价值组织的账户
获得Meta Llama、Bloom、Pythia等存储库的完全访问权限

我们的研究揭示了1681个有效API令牌的暴露，涉及723个组织账户，其中包括Meta、微软、谷歌、VMware等知名企业。655个令牌具备写权限，其中77个属于不同组织，允许完全控制这些组织的存储库。

深入了解供应链漏洞

我们发现了供应链基础设施的重大漏洞，成功获得了Meta Llama2、BigScience Workshop和EleutherAI等组织的完全访问权限。这些组织的模型下载量以百万计，暴露的令牌可能被恶意行为者利用，操纵模型并对依赖这些模型的用户造成影响。

以下示例展示了在Meta Llama组织中创建新模型存储库的过程：

训练数据中毒

我们获得了14个数据集的写权限，这些数据集每月下载量达数万次。攻击者可以通过篡改这些数据集实施训练数据中毒，破坏机器学习模型的完整性。

模型和数据集被盗

我们还发现了超过1万个私人模型和2500多个数据集的暴露。我们建议将“模型盗窃”扩展为“AI资源盗窃”，以涵盖模型和数据集的泄露问题。

其他发现

尽管HuggingFace宣布弃用org_api令牌，我们发现通过修改Python库的登录功能，仍可使用这些令牌访问私有模型。

一句忠告和行动呼吁

组织和开发者应认识到，HuggingFace等平台在保护用户API令牌方面尚存不足。我们建议采取以下措施：

避免硬编码令牌：遵循最佳实践，确保敏感信息不会被推送到存储库。
定期扫描和撤销暴露令牌：HuggingFace应效仿GitHub的做法，自动撤销暴露的API令牌。
实施安全解决方案：通过IDE和代码审查工具检测潜在风险，保护模型和数据集的安全。

通过及时应对这些挑战，组织可以有效防范API令牌泄露、训练数据中毒及模型盗窃等安全威胁。数字安全需要持续关注，我们的研究为保护LLM领域提供了重要的行动指南。

原文链接: https://www.lasso.security/blog/1500-huggingface-api-tokens-were-exposed-leaving-millions-of-meta-llama-bloom-and-pythia-users-for-supply-chain-attacks