Together AI 推理优化指南｜性能提升×成本降低的高性价比方案

作者：API传播员 · 2025-09-24 · 阅读时间：4分钟

Together AI通过FlexGen批处理技术和FlashAttention-2算法等创新，显著提升了推理性能，实现了最高5倍的价格降低。平台支持超过50个开源模型的推理服务，包括RedPajama、Llama 2和Falcon等，提供灵活的按需计费方式，有效降低用户成本。

一. Together API 推理性能优化带来的成本优势

在人工智能（AI）领域，性能优化一直是提升计算效率和降低运营成本的关键。Together AI致力于打造高效的AI技术栈，通过持续的技术创新，为用户提供更具性价比的推理解决方案。本文将详细介绍Together API的最新性能优化成果及其带来的价格调整，为AI开发者和企业用户提供参考。

二. 性能优化推动成本降低

Together AI的研发团队在性能优化方面取得了显著进展，主要包括：

a. FlexGen 批处理技术

FlexGen 技术能够将多个推理请求高效地打包处理，使GPU的利用率显著提升，从而降低单位计算成本。

b. FlashAttention-2 算法

FlashAttention-2 提供了更高效的注意力计算机制，使大型语言模型（LLM）在推理过程中实现加速，并减少显存占用。

这些核心技术的应用，使每块 GPU 能够处理更多计算任务，从而大幅提高计算效率和成本效益。基于这些优化成果，Together AI推出了更新后的定价方案，让用户以更低成本享受高性能推理服务。

三. 推理服务的最新定价方案

Together AI平台支持超过 50 个开源模型的推理服务，包括 RedPajama、LLaMA 2 和 Falcon 等主流模型。主要定价方案如下：

1. 开箱即用的模型

对于平台提供的开源模型，用户按请求付费，每 1K tokens 收费。这种灵活的按需计费方式，降低了使用门槛。

a. 私有推理虚拟机

用户可自主启动推理虚拟机运行模型，确保 数据隐私与安全性。

2. 微调后的模型

对于用户在平台上托管的微调模型，除按请求计费外，还需支付每小时托管费用。此模式适用于需要定制化推理服务的企业用户。

3. 图像模型

图像模型的定价保持不变，用户可继续以现有价格使用相关服务，无需担心成本波动。

四. 总结

通过性能优化和定价调整，Together AI为用户提供了更高效、更经济的推理服务。无论是开箱即用的开源模型，还是微调后的定制模型，用户都能以更低成本获得更高价值。

如需了解最新定价详情，请访问 Together AI 定价页面。

原文链接

https://www.together.ai/blog/august-2023-pricing-update