在Ray Data和Ray Serve中推出原生LLM API - Anyscale
引言
随着LLM 应用程序。
在 Ray 2.44 版本中,官方推出了 Ray Data LLM 和 Ray Serve LLM,旨在简化开发流程并提升效率。
Ray Data LLM:高效批量推理的解决方案
ray.data.llm 模块专为与主流 LLM 推理引擎及已部署模型的集成而设计,支持高效的批量推理。Ray Data LLM 解决了开发者在批量推理过程中面临的几大常见问题:
-
高通量批量推理的复杂性
许多用户为实现高吞吐量的批量推理,通常会构建临时解决方案,例如启动多个在线推理服务器并开发额外的代理或负载均衡工具。Ray Data LLM 利用其内置的分布式数据加载和处理功能,简化了这一过程。
-
与现有推理服务器的集成
用户常通过批量数据向现有推理服务器发送请求。Ray Data LLM 提供了与 OpenAI 兼容的 API 端点,并支持灵活的查询模板化,方便用户无缝集成数据管道。
-
与 Ray Data 管道的兼容性
用户希望将 LLM 集成到现有的 Ray Data 管道中,特别是在后处理阶段。Ray Data LLM 确保了与现有 Ray Data API 的兼容性,包括惰性加载和功能性操作。
使用 Ray Data LLM 的优势
通过 Ray Data LLM,用户可以创建一个处理器对象,该对象可直接在 Ray 数据集上调用,并返回处理后的数据集。处理器对象支持以下配置:
- 提示和模板
- OpenAI 兼容的采样参数(可按行指定)
- vLLM 引擎配置(如适用)
在实际使用中,处理器对象可以:
- 执行必要的预处理和后处理,以正确解析 LLM 输出。
- 根据配置实例化多个 vLLM 副本,并支持分布式部署。
- 利用 Ray 的异步参与者机制,实现连续批量处理并最大化吞吐量。
- 调用 Ray Data 的方法(如
map和map_batches),与管道中的其他预处理阶段无缝融合。
Ray Data LLM 显著简化了 LLM 在现有数据管道中的应用,帮助开发者更高效地完成批量推理任务。
Ray Serve LLM:多模型部署与管道编排
Ray Serve LLM API 允许用户将多个 LLM 模型与熟悉的 Ray Serve API 一起部署,同时提供与 OpenAI API 的兼容性。其设计特点包括:
- 自动缩放与负载均衡
- 支持多节点、多模型的统一部署
- OpenAI API 兼容性
- 支持共享基础模型的多 LoRA(低秩适配)配置
- 与推理引擎(如 vLLM)的深度集成
- 支持可组合的多模型 LLM 管道
Ray Serve LLM 的核心优势
vLLM 是一个高效的推理引擎,能够以高吞吐量和低延迟为多种模型提供服务。然而,vLLM 仅负责单个模型副本的管理,而生产环境通常需要一个编排层来满足以下需求:
- 自动缩放
- 支持不同的微调适配器
- 处理分布式模型并行
- 编写复杂的多模型 AI 管道
Ray Serve 弥补了 vLLM 在扩展和生产部署中的不足,提供了以下功能:
- Pythonic API:支持自动缩放的简单接口。
- 模型复用:内置支持多模型复用。
- 复杂管道编写:通过 Python 式命令式方法,轻松编写多模型或多部署管道。
- 分布式支持:借助 Ray 提供一流的分布式模型并行支持。
示例:在本地部署 Ray Serve LLM
以下是一个简单示例,展示如何在本地机器上使用 Ray Serve 部署 Qwen 模型:
- 在 OpenAI 兼容路由器后配置两个 GPU。
- 使用 OpenAI Python API 查询模型。
Ray Serve LLM 还支持通过 KubeRay 在 Kubernetes 上部署,适合生产环境。更多详细信息可参考官方文档和生产指南。
展望未来
Ray Data LLM 和 Ray Serve LLM 的推出标志着 Ray 在支持 LLM 部署和扩展方面迈出了重要一步。这些工具不仅简化了开发流程,还为构建高效、灵活的 AI 应用提供了强大的支持。未来,Ray 将继续优化这些功能,为开发者提供更多创新工具,推动 LLM 技术的普及与应用。
原文链接: https://www.anyscale.com/blog/llm-apis-ray-data-serve
最新文章
- 如何让 Python 写的 API 接口同时支持 Session 和 Token 认证?
- Golang做API开发时,如何设计可靠的签名验证机制?
- 非技术背景用户如何轻松使用天工大模型API
- 医疗API解决方案改善患者结果
- SOAP 和 REST API 的区别是什么?
- 发现啤酒世界的宝藏:开放啤酒数据库API助你探索全球精酿
- 如何获取讯飞星火 API Key 密钥(分步指南)
- API 安全最佳实践指南
- 如何使用Postman高效测试RESTful APIs:真实案例解析
- 如何获取百度语音翻译 API Key 密钥(分步指南)
- OpenAI OSS API 实战:打造智能客服与多轮对话系统全攻略
- eDRV的EV充电应用API:革新电动汽车即插即充体验