
Deepgram API 价格:探索高效语音转文字解决方案
推理性能的提升涉及底层硬件、模型层,以及其他各个软件中间件层的相互协同,因此了解大模型技术架构的全局视角,有助于我们对推理性能的优化方案进行评估和选型。
随着 DeepSeek R1 和 Qwen2.5-Max 的发布,国内大模型推理需求激增,性能提升的主战场将从训练转移到推理。
由于无论是训练还是推理,如何提升性能都是业内讨论最多的话题之一。为什么是性能呢?做过在线业务工程化的人都知道,性能的提升,直接带来的效果有两个:
在大模型消耗计算资源多、客户端内容流式生成的场景下,性能显得尤为重要。
推理性能的提升涉及底层硬件、模型层,以及其他各个软件中间件层的相互协同,因此了解大模型技术架构的全局视角,有助于我们对推理性能的优化方案进行评估和选型。
说明:图中未包含所有 vendor(欢迎留言补充),部分 vendor 会涉及多个领域。
芯片层是计算系统的物理基础,负责执行底层算术逻辑操作,其设计直接影响算力密度、能耗比及并行计算能力。国外有 NVIDIA、AMD 等 GPU 厂商,还有 Groq 等专门针对 AI 推理进行性能优化的芯片制造商。国内有阿里的平头哥、华为的 AScend、寒武纪,以及多家创业公司,包括摩尔线程、燧原科技、沐曦集成、壁仞等。
目前,平头哥玄铁、华为的 AScend、沐曦集成等均已提供 DeepSeek 的适配,缓解芯片供给侧压力。
硬件编程的抽象接口,实现高效资源调度与指令映射,平衡编程便利性与计算效率。NVIDIA CUDA、AMD ROCm、平头哥 HGAI、Ascend C、寒武纪 BangC、摩尔线程 MUSA、燧原科技 Tops Riser、沐曦集成MXMACA、壁仞 SUPA,除了提供面向硬件的编程语言,还会提供库、工具和文档等一系列开发者工具。NVIDIA CUDA 技术生态繁荣,对开发者而言,切换编程语言,成本较大。
提供一系列基础工具和功能,简化了大模型的开发、训练和部署流程。教练水平决定训练效果,PyTorch 和 TensorFlow 是两大“顶流私教”,主流框架包括:
针对推理阶段优化计算效率与资源利用率,通过编译、量化、批处理等技术降低延迟与成本。这一层参与的行业玩家众多,有芯片制造商、云厂商、软件企业、模型社区、科研机构,提供包括开源方案和商业服务,后端接入大模型,提供 API 调用服务。
推理加速的本质是“显存刺客” vs “算力魔术师”,谁能用更少的资源跑出更高的性能,谁就是赢家。业内主流方案包括:
开源 LLM 已经不再仅仅是闭源模型的追随者,而是开始主导 AI 发展的方向,DeepSeek、Qwen 和 LLaMA 是目前领跑的开源项目。
计算平台层,由于依赖 GPU 算力资源,国内以公共云厂商为主,例如阿里云的人工智能计算平台 PAI、百炼、提供 Serverless GPU 能力的函数计算 FC、容器计算服务 ACS、GPU 服务器等。
国外因不受美国出口管制条例的影响,以及大模型技术生态更加完善的原因,vendor 种类和数量更加丰富。除了公共云厂商提供的算力服务外,还有芯片厂商、软件厂商,均提供了推理计算服务。例如 Groq、together.io、Fireworks.ai 等。
by EricFlaningam on X
随着国产 GPU 和 AI 芯片能力的增强,相信这一层国内的 vendor 也会越来越多,提供更加丰富多样的推理计算服务,进一步完善大模型产业链。
大模型的应用编排层是大模型落地产业的核心中间层,是连接大模型能力与业务场景的”粘合剂”,主要用于整合模型、工具、数据和服务,实现复杂 AI 任务的自动化流程构建与执行,并提升生成效果。
以上两个开源项目,适用于 Python 开发者。
以上三个开源项目,都是代码级编程框架,自由度高。
此外,也可以使用云原生应用开发平台 CAP+函数计算 FC,以 Serverless 的范式,调用算力资源和编排 AI 应用。
以上三个是低代码平台,使用门槛更低,其中,百炼和云原生应用开发平台 CAP+函数计算 FC,提供了推理的算力支持。
大模型的流量层是大模型服务化部署的核心中间件,主要负责流量、服务、安全和 API 的管理,确保大模型服务在高负载下仍能保持稳定、低延迟的响应。此前国内的大模型需求集中在训练阶段,对流量管理层的需求并不强烈,但随着推理需求的激增,流量管理也将成为类似 Web 应用架构中不可或缺的角色。
但不同于 Web 应用,大模型应用对流量、服务、安全和 API 的管理,呈现了新的特征、提出了新的需求:
针对以上新特征、新需求,传统 Nginx 网关已经无法应对,因此国内外均出现了大量面向大模型场景的新一代开源网关。
此外,还有大模型应用的实施层,这一层中的 vendor 或是具备行业 know-how 的能力,或是具备大模型基建 know-how 的能力,他们充分利用开源大模型、开源中间件,并结合各自的技术沉淀,提供集成、线下部署等多元化的服务,也是大模型技术和应用生态的关键角色,由于厂家众多,不再一一列举。
文章转载自:大模型推理服务全景图