所有文章 > AI驱动 > GLM-4.5 开源大模型首发:智能体基准测试 90% 成功率碾压 Gemini 2.5 Pro、Grok 4
GLM-4.5 开源大模型首发:智能体基准测试 90% 成功率碾压 Gemini 2.5 Pro、Grok 4

GLM-4.5 开源大模型首发:智能体基准测试 90% 成功率碾压 Gemini 2.5 Pro、Grok 4

一、摘要

Z.ai(原智谱)今日发布 355B 参数的开源大模型 GLM-4.5,在 12 项全球基准测试中综合排名第三,仅次于 o3 与 Grok 4,但已显著超越 Gemini 2.5 Pro、DeepSeek-R1 等主流模型。其最大亮点是在 Agentic 基准(工具调用、多步推理、现实任务)中取得 90.6% 的成功率,成为首个突破 90% 的开源模型。


二、核心亮点

  1. 混合推理双模式

    • Think 模式:深度多步推理,适合代码、数学、科学。
    • No-Think 模式:毫秒级响应,适合简单问答。
  2. 超长上下文

    • 原生 128k tokens 窗口,支持整本手册、长合同或万行代码一次性处理。
  3. 卓越实测成绩

    • BrowseComp 网页任务:26.4%(Claude 4 Opus 18.8%,O4-mini-high 28.3%)
    • LIVECode 编码:72.9%(DeepSeek-R1 77.0%,Grok 4 81.9%,但 GLM-4.5 成本仅为其 1/10)
    • MMLU 通用推理:84.6%
    • SWE-Bench 代理调试:80.8%
  4. 极致性价比

    • 输入:0.11 USD / 1M tokens
    • 输出:0.28 USD / 1M tokens
    • 仅需 8 × Nvidia H20(符合对华出口限制)即可本地部署。
  5. 完全开源

    • MIT 许可证,权重已在 Hugging Face / ModelScope 开放下载;训练框架 “Slime” 同步开源。

三、技术规格对比

特性 GLM-4.5 GLM-4.5-Air DeepSeek-R1 Grok 4 GPT-4o
总参数 355B 106B 236B \~320B
激活参数 32B 12B 122B
上下文窗口 128k 128k 64k 256k 128k
架构 MoE MoE MoE 专有 专有
开源协议 MIT MIT Apache-2.0 闭源 闭源
工具调用成功率 90.6% 89.1% 92.5% 86%

四、应用场景

  • 自主编码助手:一键生成、调试、重构万行级代码。
  • 长文档分析:合同、论文、财报的秒级摘要与问答。
  • 企业级 SaaS:以 1/10 成本替换 GPT-4 后端。
  • 研究/教育:可本地私有化,保护敏感数据。

五、社区反馈

  • 开发者:“终于有一个能跑在单卡 80G 上的 90 分 Agent 模型!”
  • 投资人:“成本曲线被彻底改写,初创公司也能用上 SOTA 级 AI。”
  • 分析师:“中国开源模型第一次在全球性能榜闯进前三,且许可证最宽松。”

六、获取方式

  1. 在线体验:chat.z.ai
  2. API 文档:docs.z.ai
  3. 权重下载:huggingface.co/Z-Official/GLM-4.5

七、结语

GLM-4.5 的出现标志着开源 AI 正式进入 “90% Agent 时代”,并重新定义了性能与成本的边界。无论你是开发者、研究者还是企业用户,现在都能以极低成本获得全球第一梯队的推理与代理能力。

原文引自:https://softreviewed.com/meet-glm-4-5-open-source-model-surpasses-o3-gemini-2-5-pro-and-grok-4-with-a-90-success-rate-in-agentic-benchmarks/#

#你可能也喜欢这些API文章!

我们有何不同?

API服务商零注册

多API并行试用

数据驱动选型,提升决策效率

查看全部API→
🔥

热门场景实测,选对API

#AI文本生成大模型API

对比大模型API的内容创意新颖性、情感共鸣力、商业转化潜力

25个渠道
一键对比试用API 限时免费

#AI深度推理大模型API

对比大模型API的逻辑推理准确性、分析深度、可视化建议合理性

10个渠道
一键对比试用API 限时免费