在Ray Data和Ray Serve中推出原生LLM API - Anyscale

作者:API传播员 · 2025-11-09 · 阅读时间:5分钟
Ray 2.44版本推出Ray Data LLM和Ray Serve LLM原生API,简化大型语言模型部署和扩展。Ray Data LLM支持高效批量推理,解决高通量推理复杂性,与现有推理服务器集成,兼容Ray Data管道。Ray Serve LLM提供多模型部署、自动缩放和OpenAI API兼容性,支持vLLM集成和复杂管道编排,帮助开发者构建高效AI应用。

引言

随着大型语言模型(LLM)逐渐成为现代人工智能(AI)基础设施部署的核心,平台需要具备高效部署和扩展这些模型的能力。虽然 Ray Data 和 Ray Serve 在这一领域表现出色,但开发人员往往需要编写大量样板代码来充分利用这些工具扩展 LLM 应用程序。

在 Ray 2.44 版本中,官方推出了 Ray Data LLMRay Serve LLM,旨在简化开发流程并提升效率。


Ray Data LLM:高效批量推理的解决方案

ray.data.llm 模块专为与主流 LLM 推理引擎及已部署模型的集成而设计,支持高效的批量推理。Ray Data LLM 解决了开发者在批量推理过程中面临的几大常见问题:

  1. 高通量批量推理的复杂性
    许多用户为实现高吞吐量的批量推理,通常会构建临时解决方案,例如启动多个在线推理服务器并开发额外的代理或负载均衡工具。Ray Data LLM 利用其内置的分布式数据加载和处理功能,简化了这一过程。

  2. 与现有推理服务器的集成
    用户常通过批量数据向现有推理服务器发送请求。Ray Data LLM 提供了与 OpenAI 兼容的 API 端点,并支持灵活的查询模板化,方便用户无缝集成数据管道。

  3. 与 Ray Data 管道的兼容性
    用户希望将 LLM 集成到现有的 Ray Data 管道中,特别是在后处理阶段。Ray Data LLM 确保了与现有 Ray Data API 的兼容性,包括惰性加载和功能性操作。

使用 Ray Data LLM 的优势

通过 Ray Data LLM,用户可以创建一个处理器对象,该对象可直接在 Ray 数据集上调用,并返回处理后的数据集。处理器对象支持以下配置:

  • 提示和模板
  • OpenAI 兼容的采样参数(可按行指定)
  • vLLM 引擎配置(如适用)

在实际使用中,处理器对象可以:

  • 执行必要的预处理和后处理,以正确解析 LLM 输出。
  • 根据配置实例化多个 vLLM 副本,并支持分布式部署。
  • 利用 Ray 的异步参与者机制,实现连续批量处理并最大化吞吐量。
  • 调用 Ray Data 的方法(如 mapmap_batches),与管道中的其他预处理阶段无缝融合。

Ray Data LLM 显著简化了 LLM 在现有数据管道中的应用,帮助开发者更高效地完成批量推理任务。


Ray Serve LLM:多模型部署与管道编排

Ray Serve LLM API 允许用户将多个 LLM 模型与熟悉的 Ray Serve API 一起部署,同时提供与 OpenAI API 的兼容性。其设计特点包括:

  • 自动缩放与负载均衡
  • 支持多节点、多模型的统一部署
  • OpenAI API 兼容性
  • 支持共享基础模型的多 LoRA(低秩适配)配置
  • 与推理引擎(如 vLLM)的深度集成
  • 支持可组合的多模型 LLM 管道

Ray Serve LLM 的核心优势

vLLM 是一个高效的推理引擎,能够以高吞吐量和低延迟为多种模型提供服务。然而,vLLM 仅负责单个模型副本的管理,而生产环境通常需要一个编排层来满足以下需求:

  • 自动缩放
  • 支持不同的微调适配器
  • 处理分布式模型并行
  • 编写复杂的多模型 AI 管道

Ray Serve 弥补了 vLLM 在扩展和生产部署中的不足,提供了以下功能:

  • Pythonic API:支持自动缩放的简单接口。
  • 模型复用:内置支持多模型复用。
  • 复杂管道编写:通过 Python 式命令式方法,轻松编写多模型或多部署管道。
  • 分布式支持:借助 Ray 提供一流的分布式模型并行支持。

示例:在本地部署 Ray Serve LLM

以下是一个简单示例,展示如何在本地机器上使用 Ray Serve 部署 Qwen 模型:

  1. 在 OpenAI 兼容路由器后配置两个 GPU。
  2. 使用 OpenAI Python API 查询模型。

Ray Serve LLM 还支持通过 KubeRay 在 Kubernetes 上部署,适合生产环境。更多详细信息可参考官方文档和生产指南。


展望未来

Ray Data LLM 和 Ray Serve LLM 的推出标志着 Ray 在支持 LLM 部署和扩展方面迈出了重要一步。这些工具不仅简化了开发流程,还为构建高效、灵活的 AI 应用提供了强大的支持。未来,Ray 将继续优化这些功能,为开发者提供更多创新工具,推动 LLM 技术的普及与应用。


原文链接: https://www.anyscale.com/blog/llm-apis-ray-data-serve