GLM-4.5 开源大模型首发:智能体基准测试 90% 成功率碾压 Gemini 2.5 Pro、Grok 4
作者:xiaoxin.gao · 2025-08-14 · 阅读时间:4分钟
### 一、摘要 Z.ai(原智谱)今日发布 355B 参数的[开源大模型](https://www.expl […]
一、摘要
Z.ai(原智谱)今日发布 355B 参数的开源大模型 GLM-4.5,在 12 项全球基准测试中综合排名第三,仅次于 o3 与 Grok 4,但已显著超越 Gemini 2.5 Pro、DeepSeek-R1 等主流模型。其最大亮点是在 Agentic 基准(工具调用、多步推理、现实任务)中取得 90.6% 的成功率,成为首个突破 90% 的开源模型。
二、核心亮点
-
混合推理双模式
- Think 模式:深度多步推理,适合代码、数学、科学。
- No-Think 模式:毫秒级响应,适合简单问答。
-
超长上下文
- 原生 128k tokens 窗口,支持整本手册、长合同或万行代码一次性处理。
-
卓越实测成绩
- BrowseComp 网页任务:26.4%(Claude 4 Opus 18.8%,O4-mini-high 28.3%)
- LIVECode 编码:72.9%(DeepSeek-R1 77.0%,Grok 4 81.9%,但 GLM-4.5 成本仅为其 1/10)
- MMLU 通用推理:84.6%
- SWE-Bench 代理调试:80.8%
-
极致性价比
- 输入:0.11 USD / 1M tokens
- 输出:0.28 USD / 1M tokens
- 仅需 8 × Nvidia H20(符合对华出口限制)即可本地部署。
-
完全开源
- MIT 许可证,权重已在 Hugging Face / ModelScope 开放下载;训练框架 “Slime” 同步开源。
三、技术规格对比
| — | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 总参数 | 355B | 106B | 236B | ~320B | — | |||||||
| 激活参数 | 32B | 12B | 122B | — | — | |||||||
| 上下文窗口 | 128k | 128k | 64k | 256k | 128k | |||||||
| 架构 | MoE | MoE | MoE | 专有 | 专有 | |||||||
| 开源协议 | MIT | MIT | Apache-2.0 | 闭源 | 闭源 | |||||||
| 工具调用成功率 | 90.6% | — | 89.1% | 92.5% | 86% |
四、应用场景
-
自主编码助手:一键生成、调试、重构万行级代码。
-
长文档分析:合同、论文、财报的秒级摘要与问答。
-
企业级 SaaS:以 1/10 成本替换 GPT-4 后端。
-
研究/教育:可本地私有化,保护敏感数据。
-
五、社区反馈
-
开发者:“终于有一个能跑在单卡 80G 上的 90 分 Agent 模型!”
-
投资人:“成本曲线被彻底改写,初创公司也能用上 SOTA 级 AI。”
-
分析师:“中国开源模型第一次在全球性能榜闯进前三,且许可证最宽松。”
-
六、获取方式
- 在线体验:chat.z.ai
- API 文档:docs.z.ai
- 权重下载:huggingface.co/Z-Official/GLM-4.5
七、结语
GLM-4.5 的出现标志着开源 AI 正式进入 “90% Agent 时代”,并重新定义了性能与成本的边界。无论你是开发者、研究者还是企业用户,现在都能以极低成本获得全球第一梯队的推理与代理能力。
热门推荐
一个账号试用1000+ API
助力AI无缝链接物理世界 · 无需多次注册
3000+提示词助力AI大模型
和专业工程师共享工作效率翻倍的秘密
最新文章
- OpenAI GPT-4o 图像生成 (gpt-image-1) API – IMG.LY
- 如何使用 OpenAI 的 Sora API:综合使用指南
- 如何使用 amazon scraper api 进行商品数据采集
- 推荐一款支持加入数据库的AI项目:让你的数据库秒变AI数据库!
- 什么是 API Key 密钥以及如何使用它们?
- API 身份验证与授权:OAuth2、JWT 与最佳实践
- 支付宝财富黑卡权益是什么?如何充分利用这些权益?
- API Settings详解:如何通过配置优化API性能与安全性
- Jenkins API使用教程
- 如何通过MCP+魔搭免费API搭建本地数据助手
- 微软翻译API密钥获取、API对接实战指南
- 10 个最佳 API 设计实践
热门推荐
一个账号试用1000+ API
助力AI无缝链接物理世界 · 无需多次注册