思维链 vs 草稿链：推理效率革命与企业AI成本大降的真相

当企业竞相部署大型语言模型（LLM）时，一个沉默的杀手正悄然吞噬着预算——推理成本。传统思维链（Chain of Thought，CoT）方法在提升模型推理能力的同时，带来了冗长的中间步骤和高昂的计算代价。

2025年初，Zoom的华人研究团队提出一项名为草稿链（Chain of Draft，CoD） 的突破性技术，仅用7.6%的Token消耗，在多项任务中实现了与CoT相当甚至更优的准确率，从根本上撼动了企业AI部署的经济模型。

1、技术背景与演进脉络

人工智能的推理能力发展走过了一条从直觉到逻辑的演进路径。早期LLM采用标准提示（Standard Prompting）方法，模型直接输出答案而不展示推理过程，如同“黑箱”决策，缺乏透明度和可解释性。

2022年，Google研究人员提出思维链（Chain of Thought，CoT）提示技术。这种方法要求模型模仿人类逐步推理的过程，将问题分解为多个中间步骤，最终得出答案。

在数学题“Jason有20个棒棒糖，分给Denny一些后剩12个，问分了多少？”中，CoT会生成如下推理：

Jason最初有20个棒棒糖
分给Denny后剩下12个
所以分出去的数量是20减12
答案：8个

尽管CoT显著提升了模型在复杂任务上的表现，但每一步都需要大量Token描述中间过程。在实时系统中，这些额外Token直接转化为延迟和成本。

2025年3月，Zoom的华人团队从人类思维中汲取灵感——人们在解决复杂问题时，往往用简写和符号记录关键点，而非完整句子——由此诞生了草稿链（Chain of Draft，CoD）技术。

CoD的核心创新在于：限制每个推理步骤最多五个词，强制模型聚焦信息密度最高的内容，消除冗余表达。

面对同样的棒棒糖问题，CoD可能仅生成：

初始20 | 剩余12 | 20-12=8

高度压缩的表达形式，带来效率的指数级提升。

2、CoT vs CoD：核心差异解剖

两种技术表面相似却存在本质差异，深刻理解其区别是选择合适技术方案的前提。

工作机制对比

CoT工作机制：

完整模拟人类思考的语言化过程
每个步骤用自然语言详细阐述
生成内容包含逻辑连接词和解释性文字
类似“向学生讲解解题过程”
CoD工作机制：

模拟人类草稿笔记模式
仅记录关键变量、运算符和决策点
禁止完整句子，每步≤5词
类似“工程师的草稿纸记录”

效率与成本差异
在Claude3.5 Sonnet处理体育相关问题时，CoD将平均输出从189.4个token减少到仅14.3个token，降幅达92.4%，同时准确率从93.2%提高到了97.3%。

对企业而言，这意味着实实在在的成本削减。AI研究员Prabhakar算过一笔账：

“对于一家每月处理100万次推理查询的企业，采用草稿链技术，每月成本可从（使用思维链时的）3800美元降至760美元，每月节省超过3000美元。”

准确性与适用性
在符号推理任务（如抛硬币问题）中，CoT和CoD都实现了100%的准确率。但在常识推理领域，CoD展现出特殊优势。

在日期理解任务中，使用CoD的Claude3.5 Sonnet模型达到了89.7%的准确率，超过了CoT的87.0%，同时延迟从3.2秒降低到1.4秒。这表明信息压缩可能帮助模型聚焦核心要素，减少无关信息干扰。

表：CoT与CoD核心技术特性对比

特性	思维链(CoT)	草稿链(CoD)
工作机制	完整语言化推理步骤	关键词/符号草稿记录
平均Token使用量	100% (基准)	7.6%-20%
响应延迟	高	降低40%-92%
企业月成本(百万查询)	$3800	$760
准确率趋势	高	相当或更高
最佳场景	教学、可解释决策	实时系统、移动端、大规模部署

3、硬核数据：当CoT与CoD同台竞技

理论需要数据验证，研究团队在三大类任务中进行了严格测试，结果揭示了效率革命的真相。

算术推理战场：GSM8K数据集
GSM8K包含8500个小学水平数学问题，是测试逐步推理能力的标准战场。结果令人震惊：

GPT-4o使用CoD：准确率91%，每条响应约40个token
相比CoT：token减少80%，延迟降低76.2%
Claude3.5表现类似：准确率91%，延迟降低48.4%

常识推理战场：日期与体育理解
在需要世界知识的任务中，CoD展示了双重优势：

体育理解任务（Claude3.5）：

CoT：189.4 token，准确率93.2%
CoD：14.3 token（减少92.4%），准确率97.3%
日期理解任务：

CoD延迟：1.4秒 vs CoT的3.2秒
准确率提升：89.7% vs 87.0%

符号推理战场：抛硬币问题
在250个抛硬币问题测试中：

标准提示下，GPT-4o和Claude3.5准确率分别为73.2%和85.2%
使用CoT和CoD时，两个模型准确率均达100%
但token使用：GPT-4o减少68%，Claude3.5减少86%

这些数据证实：CoD在保持顶级准确率的同时，实现了数量级的效率提升。

4、应用图景：当技术落地现实世界

技术的价值在应用中显现，CoT和CoD各有最适合的战场。

CoT的核心应用场景
需要高透明度和可解释性的场景是CoT的主场：

教育领域：学生通过完整的推理步骤理解解题过程
医疗决策支持：医生需要了解决策背后的完整逻辑链条
金融风控系统：监管要求提供可审计的决策依据
法律分析：结论需要完备的论证过程支撑

在这些场景中，推理过程的完整性比速度更重要，CoT提供了“玻璃盒”式的透明推理。

CoD的颠覆性应用场景
对延迟和成本敏感的场景中，CoD正改变游戏规则：

实时客户支持：用户期待秒级响应，传统CoT的延迟难以满足。某银行部署CoD后，客服机器人响应时间从3.2秒降至0.8秒，同时保持97%的准确率。

移动端AI应用：在资源受限的设备上，CoD的低Token需求大幅降低内存和计算负载。智能手机上的AI助手能更快响应，续航延长15%以上。

大规模AI代理协作：腾讯云的Craft智能开发代理采用类似技术，使开发人员编码时间减少40%，AI生成代码占总代码量的40%以上。

高频金融交易：股票预测系统需要毫秒级响应，CoD使复杂市场分析模型能在交易窗口内完成推理。

教育科技产品：数学辅导App能实时分析学生解题过程，提供即时反馈，无需云端计算。

在这些场景中，效率提升直接转化为用户体验和商业价值的提升。

企业迁移路径
对于已在CoT投入的企业，向CoD的迁移异常平滑：

无需模型重新训练或架构大改
仅需修改提示工程策略
支持渐进式迁移，按场景逐步切换
与现有工具链（如Tencent的MCP协议）无缝集成

这种低门槛迁移策略加速了CoD在企业中的普及。

5、未来发展与挑战

随着草稿链技术不断成熟，AI推理领域正迎来范式转变，但仍面临多重挑战。

技术融合新方向
CoT+CoD混合系统已初露锋芒：

前端使用CoD快速生成响应草稿
后端针对需要解释的场景，自动转换为完整CoT
根据用户身份（专家vs普通用户）动态调整输出密度

这种方法在阿里云的通义灵码等开发工具中已有雏形，根据上下文智能切换详细模式和简洁模式。

认知图谱的加持
清华大学提出的认知图谱技术结合知识表示与推理，为CoD提供结构化知识支撑。当模型拥有更丰富的背景知识：

CoD草稿中的符号可关联到知识图谱实体
减少基础事实错误
提升超简洁表达的准确性

硬件协同优化
芯片厂商正针对CoD类负载优化硬件：

设计专用指令处理符号化草稿
内存子系统优化小Token序列处理
预计2026年新一代AI加速器将针对CoD优化

现存挑战
尽管前景光明，CoD仍需克服多重障碍：

信息密度与可读性平衡：过度压缩的表达可能难以理解
领域适应性问题：在医疗等专业领域，术语压缩需要专业知识
错误传播风险：关键信息缺失可能导致推理偏差
多模态扩展：如何将技术应用于图像、音频等多模态场景

华人研究团队已在GitHub开源CoD实现，社区正积极应对这些挑战。

6、结语：选择与平衡的艺术

在AI推理领域，没有放之四海而皆准的方案。CoT与CoD代表两种不同的优化维度——前者追求过程的可解释性，后者追求极致的效率。

2025年将成为企业AI部署的分水岭。随着像Zoom的CoD和腾讯的Craft代理等技术的成熟，推理成本从“奢侈品”变为“日用品”。

对于开发者和企业决策者，选择应基于具体场景：

当解释性优先时（教育、医疗、法律），选择CoT
当速度和成本主导时（实时系统、移动端、大规模部署），选择CoD
混合环境可部署智能路由系统，自动分配查询到合适引擎

未来属于能够平衡透明与效率的智能系统。随着认知图谱等技术的发展，我们可能迎来既能“一步到位”又能“娓娓道来”的AI推理新范式。

最终目标不是二选一，而是创造像人类一样灵活切换思维模式的机器大脑——既能在茶余饭后详细解释相对论，也能在紧急时刻凭直觉做出生死攸关的决定。