在Ray Data和Ray Serve中推出原生LLM API - Anyscale
引言
随着大型语言模型(LLM)逐渐成为现代人工智能(AI)基础设施部署的核心,平台需要具备高效部署和扩展这些模型的能力。虽然 Ray Data 和 Ray Serve 在这一领域表现出色,但开发人员往往需要编写大量样板代码来充分利用这些工具扩展 LLM 应用程序。
在 Ray 2.44 版本中,官方推出了 Ray Data LLM 和 Ray Serve LLM,旨在简化开发流程并提升效率。
Ray Data LLM:高效批量推理的解决方案
ray.data.llm 模块专为与主流 LLM 推理引擎及已部署模型的集成而设计,支持高效的批量推理。Ray Data LLM 解决了开发者在批量推理过程中面临的几大常见问题:
-
高通量批量推理的复杂性
许多用户为实现高吞吐量的批量推理,通常会构建临时解决方案,例如启动多个在线推理服务器并开发额外的代理或负载均衡工具。Ray Data LLM 利用其内置的分布式数据加载和处理功能,简化了这一过程。 -
与现有推理服务器的集成
用户常通过批量数据向现有推理服务器发送请求。Ray Data LLM 提供了与 OpenAI 兼容的 API 端点,并支持灵活的查询模板化,方便用户无缝集成数据管道。 -
与 Ray Data 管道的兼容性
用户希望将 LLM 集成到现有的 Ray Data 管道中,特别是在后处理阶段。Ray Data LLM 确保了与现有 Ray Data API 的兼容性,包括惰性加载和功能性操作。
使用 Ray Data LLM 的优势
通过 Ray Data LLM,用户可以创建一个处理器对象,该对象可直接在 Ray 数据集上调用,并返回处理后的数据集。处理器对象支持以下配置:
- 提示和模板
- OpenAI 兼容的采样参数(可按行指定)
- vLLM 引擎配置(如适用)
在实际使用中,处理器对象可以:
- 执行必要的预处理和后处理,以正确解析 LLM 输出。
- 根据配置实例化多个 vLLM 副本,并支持分布式部署。
- 利用 Ray 的异步参与者机制,实现连续批量处理并最大化吞吐量。
- 调用 Ray Data 的方法(如
map和map_batches),与管道中的其他预处理阶段无缝融合。
Ray Data LLM 显著简化了 LLM 在现有数据管道中的应用,帮助开发者更高效地完成批量推理任务。
Ray Serve LLM:多模型部署与管道编排
Ray Serve LLM API 允许用户将多个 LLM 模型与熟悉的 Ray Serve API 一起部署,同时提供与 OpenAI API 的兼容性。其设计特点包括:
- 自动缩放与负载均衡
- 支持多节点、多模型的统一部署
- OpenAI API 兼容性
- 支持共享基础模型的多 LoRA(低秩适配)配置
- 与推理引擎(如 vLLM)的深度集成
- 支持可组合的多模型 LLM 管道
Ray Serve LLM 的核心优势
vLLM 是一个高效的推理引擎,能够以高吞吐量和低延迟为多种模型提供服务。然而,vLLM 仅负责单个模型副本的管理,而生产环境通常需要一个编排层来满足以下需求:
- 自动缩放
- 支持不同的微调适配器
- 处理分布式模型并行
- 编写复杂的多模型 AI 管道
Ray Serve 弥补了 vLLM 在扩展和生产部署中的不足,提供了以下功能:
- Pythonic API:支持自动缩放的简单接口。
- 模型复用:内置支持多模型复用。
- 复杂管道编写:通过 Python 式命令式方法,轻松编写多模型或多部署管道。
- 分布式支持:借助 Ray 提供一流的分布式模型并行支持。
示例:在本地部署 Ray Serve LLM
以下是一个简单示例,展示如何在本地机器上使用 Ray Serve 部署 Qwen 模型:
- 在 OpenAI 兼容路由器后配置两个 GPU。
- 使用 OpenAI Python API 查询模型。
Ray Serve LLM 还支持通过 KubeRay 在 Kubernetes 上部署,适合生产环境。更多详细信息可参考官方文档和生产指南。
展望未来
Ray Data LLM 和 Ray Serve LLM 的推出标志着 Ray 在支持 LLM 部署和扩展方面迈出了重要一步。这些工具不仅简化了开发流程,还为构建高效、灵活的 AI 应用提供了强大的支持。未来,Ray 将继续优化这些功能,为开发者提供更多创新工具,推动 LLM 技术的普及与应用。
原文链接: https://www.anyscale.com/blog/llm-apis-ray-data-serve
热门API
- 1. AI文本生成
- 2. AI图片生成_文生图
- 3. AI图片生成_图生图
- 4. AI图像编辑
- 5. AI视频生成_文生视频
- 6. AI视频生成_图生视频
- 7. AI语音合成_文生语音
- 8. AI文本生成(中国)
最新文章
- Yahoo Finance API – 完整指南
- 使用 DEEPSEEK AI 构建应用程序:它能(和不能)做什么
- 如何获取 Figma 开放平台 API Key 密钥(分步指南)
- 大模型推理框架汇总
- 大模型 API 异步调用优化:高效并发与令牌池设计实践
- 支付宝国际版在国内使用:如何实现无缝支付体验?
- API接口安全性设计,项目中该如何保证API接口安全?
- REST API:关键概念、最佳实践和优势
- API测试:初学者终极指南 – Apidog
- API Mocking:你需要了解的一切 – Apidog
- 带有Logo和设计功能的二维码API:揭示8大应用场景
- 如何构建用于LLM微调的数据集 – MonsterAPI博客