所有文章 >
AI驱动 >
GLM-4.5 开源大模型首发:智能体基准测试 90% 成功率碾压 Gemini 2.5 Pro、Grok 4
GLM-4.5 开源大模型首发:智能体基准测试 90% 成功率碾压 Gemini 2.5 Pro、Grok 4
作者: xiaoxin.gao
2025-08-14
一、摘要
Z.ai(原智谱)今日发布 355B 参数的开源大模型 GLM-4.5,在 12 项全球基准测试中综合排名第三,仅次于 o3 与 Grok 4,但已显著超越 Gemini 2.5 Pro、DeepSeek-R1 等主流模型。其最大亮点是在 Agentic 基准(工具调用、多步推理、现实任务)中取得 90.6% 的成功率,成为首个突破 90% 的开源模型。
二、核心亮点
-
混合推理双模式
- Think 模式:深度多步推理,适合代码、数学、科学。
- No-Think 模式:毫秒级响应,适合简单问答。
-
超长上下文
- 原生 128k tokens 窗口,支持整本手册、长合同或万行代码一次性处理。
-
卓越实测成绩
- BrowseComp 网页任务:26.4%(Claude 4 Opus 18.8%,O4-mini-high 28.3%)
- LIVECode 编码:72.9%(DeepSeek-R1 77.0%,Grok 4 81.9%,但 GLM-4.5 成本仅为其 1/10)
- MMLU 通用推理:84.6%
- SWE-Bench 代理调试:80.8%
-
极致性价比
- 输入:0.11 USD / 1M tokens
- 输出:0.28 USD / 1M tokens
- 仅需 8 × Nvidia H20(符合对华出口限制)即可本地部署。
-
完全开源
- MIT 许可证,权重已在 Hugging Face / ModelScope 开放下载;训练框架 “Slime” 同步开源。
三、技术规格对比
特性 |
GLM-4.5 |
GLM-4.5-Air |
DeepSeek-R1 |
Grok 4 |
GPT-4o |
总参数 |
355B |
106B |
236B |
\~320B |
— |
激活参数 |
32B |
12B |
122B |
— |
— |
上下文窗口 |
128k |
128k |
64k |
256k |
128k |
架构 |
MoE |
MoE |
MoE |
专有 |
专有 |
开源协议 |
MIT |
MIT |
Apache-2.0 |
闭源 |
闭源 |
工具调用成功率 |
90.6% |
— |
89.1% |
92.5% |
86% |
四、应用场景
- 自主编码助手:一键生成、调试、重构万行级代码。
- 长文档分析:合同、论文、财报的秒级摘要与问答。
- 企业级 SaaS:以 1/10 成本替换 GPT-4 后端。
- 研究/教育:可本地私有化,保护敏感数据。
五、社区反馈
- 开发者:“终于有一个能跑在单卡 80G 上的 90 分 Agent 模型!”
- 投资人:“成本曲线被彻底改写,初创公司也能用上 SOTA 级 AI。”
- 分析师:“中国开源模型第一次在全球性能榜闯进前三,且许可证最宽松。”
六、获取方式
- 在线体验:chat.z.ai
- API 文档:docs.z.ai
- 权重下载:huggingface.co/Z-Official/GLM-4.5
七、结语
GLM-4.5 的出现标志着开源 AI 正式进入 “90% Agent 时代”,并重新定义了性能与成本的边界。无论你是开发者、研究者还是企业用户,现在都能以极低成本获得全球第一梯队的推理与代理能力。
原文引自:https://softreviewed.com/meet-glm-4-5-open-source-model-surpasses-o3-gemini-2-5-pro-and-grok-4-with-a-90-success-rate-in-agentic-benchmarks/#
我们有何不同?
API服务商零注册
多API并行试用
数据驱动选型,提升决策效率
查看全部API→