在Ray Data和Ray Serve中推出原生LLM API - Anyscale

引言

随着大型语言模型（LLM）逐渐成为现代人工智能（AI）基础设施部署的核心，平台需要具备高效部署和扩展这些模型的能力。虽然 Ray Data 和 Ray Serve 在这一领域表现出色，但开发人员往往需要编写大量样板代码来充分利用这些工具扩展 LLM 应用程序。

在 Ray 2.44 版本中，官方推出了 Ray Data LLM 和 Ray Serve LLM，旨在简化开发流程并提升效率。

ray.data.llm 模块专为与主流 LLM 推理引擎及已部署模型的集成而设计，支持高效的批量推理。Ray Data LLM 解决了开发者在批量推理过程中面临的几大常见问题：

高通量批量推理的复杂性
许多用户为实现高吞吐量的批量推理，通常会构建临时解决方案，例如启动多个在线推理服务器并开发额外的代理或负载均衡工具。Ray Data LLM 利用其内置的分布式数据加载和处理功能，简化了这一过程。
与现有推理服务器的集成
用户常通过批量数据向现有推理服务器发送请求。Ray Data LLM 提供了与 OpenAI 兼容的 API 端点，并支持灵活的查询模板化，方便用户无缝集成数据管道。
与 Ray Data 管道的兼容性
用户希望将 LLM 集成到现有的 Ray Data 管道中，特别是在后处理阶段。Ray Data LLM 确保了与现有 Ray Data API 的兼容性，包括惰性加载和功能性操作。

通过 Ray Data LLM，用户可以创建一个处理器对象，该对象可直接在 Ray 数据集上调用，并返回处理后的数据集。处理器对象支持以下配置：

在实际使用中，处理器对象可以：

Ray Data LLM 显著简化了 LLM 在现有数据管道中的应用，帮助开发者更高效地完成批量推理任务。

Ray Serve LLM API 允许用户将多个 LLM 模型与熟悉的 Ray Serve API 一起部署，同时提供与 OpenAI API 的兼容性。其设计特点包括：

vLLM 是一个高效的推理引擎，能够以高吞吐量和低延迟为多种模型提供服务。然而，vLLM 仅负责单个模型副本的管理，而生产环境通常需要一个编排层来满足以下需求：

Ray Serve 弥补了 vLLM 在扩展和生产部署中的不足，提供了以下功能：

以下是一个简单示例，展示如何在本地机器上使用 Ray Serve 部署 Qwen 模型：

Ray Serve LLM 还支持通过 KubeRay 在 Kubernetes 上部署，适合生产环境。更多详细信息可参考官方文档和生产指南。

Ray Data LLM 和 Ray Serve LLM 的推出标志着 Ray 在支持 LLM 部署和扩展方面迈出了重要一步。这些工具不仅简化了开发流程，还为构建高效、灵活的 AI 应用提供了强大的支持。未来，Ray 将继续优化这些功能，为开发者提供更多创新工具，推动 LLM 技术的普及与应用。

原文链接: https://www.anyscale.com/blog/llm-apis-ray-data-serve