GLM-4.5 开源大模型首发：智能体基准测试 90% 成功率碾压 Gemini 2.5 Pro、Grok 4

一、摘要

Z.ai（原智谱）今日发布 355B 参数的开源大模型 GLM-4.5，在 12 项全球基准测试中综合排名第三，仅次于 o3 与 Grok 4，但已显著超越 Gemini 2.5 Pro、DeepSeek-R1 等主流模型。其最大亮点是在 Agentic 基准（工具调用、多步推理、现实任务）中取得 90.6% 的成功率，成为首个突破 90% 的开源模型。

二、核心亮点

混合推理双模式
- Think 模式：深度多步推理，适合代码、数学、科学。
- No-Think 模式：毫秒级响应，适合简单问答。
超长上下文
- 原生 128k tokens 窗口，支持整本手册、长合同或万行代码一次性处理。
卓越实测成绩
- BrowseComp 网页任务：26.4%（Claude 4 Opus 18.8%，O4-mini-high 28.3%）
- LIVECode 编码：72.9%（DeepSeek-R1 77.0%，Grok 4 81.9%，但 GLM-4.5 成本仅为其 1/10）
- MMLU 通用推理：84.6%
- SWE-Bench 代理调试：80.8%
极致性价比
- 输入：0.11 USD / 1M tokens
- 输出：0.28 USD / 1M tokens
- 仅需 8 × Nvidia H20（符合对华出口限制）即可本地部署。
完全开源
- MIT 许可证，权重已在 Hugging Face / ModelScope 开放下载；训练框架 “Slime” 同步开源。

三、技术规格对比


总参数	355B	106B	236B	~320B	—
激活参数	32B	12B	122B	—	—
上下文窗口	128k	128k	64k	256k	128k
架构	MoE	MoE	MoE	专有	专有
开源协议	MIT	MIT	Apache-2.0	闭源	闭源
工具调用成功率	90.6%	—	89.1%	92.5%	86%

四、应用场景

自主编码助手：一键生成、调试、重构万行级代码。
长文档分析：合同、论文、财报的秒级摘要与问答。
企业级 SaaS：以 1/10 成本替换 GPT-4 后端。
研究/教育：可本地私有化，保护敏感数据。

五、社区反馈

开发者：“终于有一个能跑在单卡 80G 上的 90 分 Agent 模型！”
投资人：“成本曲线被彻底改写，初创公司也能用上 SOTA 级 AI。”
分析师：“中国开源模型第一次在全球性能榜闯进前三，且许可证最宽松。”

六、获取方式

在线体验：chat.z.ai
API 文档：docs.z.ai
权重下载：huggingface.co/Z-Official/GLM-4.5

七、结语

GLM-4.5 的出现标志着开源 AI 正式进入 “90% Agent 时代”，并重新定义了性能与成本的边界。无论你是开发者、研究者还是企业用户，现在都能以极低成本获得全球第一梯队的推理与代理能力。

原文引自：https://softreviewed.com/meet-glm-4-5-open-source-model-surpasses-o3-gemini-2-5-pro-and-grok-4-with-a-90-success-rate-in-agentic-benchmarks/#