
从2024年三个API趋势中学习,塑造新的一年
在人工智能(AI)领域,性能优化一直是提升计算效率和降低运营成本的关键。Together AI致力于打造高效的AI技术栈,通过持续的技术创新,为用户提供更具性价比的推理解决方案。本文将详细介绍Together API的最新性能优化成果及其带来的价格调整,为AI开发者和企业用户提供参考。
Together AI的研发团队在性能优化方面取得了显著进展,主要包括:
FlexGen 技术能够将多个推理请求高效地打包处理,使GPU的利用率显著提升,从而降低单位计算成本。
FlashAttention-2 提供了更高效的注意力计算机制,使大型语言模型(LLM)在推理过程中实现加速,并减少显存占用。
这些核心技术的应用,使每块 GPU 能够处理更多计算任务,从而大幅提高计算效率和成本效益。基于这些优化成果,Together AI推出了更新后的定价方案,让用户以更低成本享受高性能推理服务。
Together AI平台支持超过 50 个开源模型的推理服务,包括 RedPajama、LLaMA 2 和 Falcon 等主流模型。主要定价方案如下:
对于平台提供的开源模型,用户按请求付费,每 1K tokens 收费。这种灵活的按需计费方式,降低了使用门槛。
用户可自主启动推理虚拟机运行模型,确保 数据隐私与安全性。
对于用户在平台上托管的微调模型,除按请求计费外,还需支付每小时托管费用。此模式适用于需要定制化推理服务的企业用户。
图像模型的定价保持不变,用户可继续以现有价格使用相关服务,无需担心成本波动。
通过性能优化和定价调整,Together AI为用户提供了更高效、更经济的推理服务。无论是开箱即用的开源模型,还是微调后的定制模型,用户都能以更低成本获得更高价值。
如需了解最新定价详情,请访问 Together AI 定价页面。