Cursor如何使用Speculative Decoding API构建Fast Apply

数百万开发者每天都在编写代码以改进软件系统和优化业务流程，但鲜有工具能够显著提升他们的生产力。随着生成式 AI 的兴起，基于大型语言模型（LLMs）的新型开发者工具层出不穷，尤其是在代码生成领域。本文将重点介绍 Fireworks 推理架构如何通过低延迟的推测解码 API，助力 Cursor 实现每秒 1000 token 的处理速度，从而大幅提升开发者的工作效率。

---

## Cursor 的创新功能

Cursor 是一款面向开发者的工具，拥有多项创新功能，以下是开发者特别青睐的几个亮点：

### 即时应用

通过点击“播放”按钮，开发者可以将生成的代码即时应用到文件中，从而加速开发流程。

### 智能重写

Cursor 能够在开发者编写代码时，自动对代码片段进行多行语法修正，减少手动调整的时间。

### 光标预测

借助 Copilot++ 功能，Cursor 可以预测下一个光标位置，实现代码的无缝导航，极大地提升了开发效率。

---

## 面临的代码重写难题

在大规模代码编辑场景中，现有的前沿模型（如 GPT-4 和 GPT-4o）常常面临以下问题：

- **惰性**：模型在多次调用后可能无法持续优化输出。
- **不准确**：生成的代码可能偏离预期。
- **高延迟**：处理大量代码时响应速度较慢。

这些问题在代码代理场景中尤为明显，尤其是当需要精确编辑数百行代码时，可能会导致无限循环或错误输出，严重影响开发者的工作效率。

为了解决这些问题，Cursor 专门训练了“快速应用”任务模型，结合 CMD+K 提示生成的合成数据和即时应用输入进行训练。通过 Fireworks 推测解码技术，Cursor 部署了定制训练的 llama-70b-ft-spec 模型，实现了每秒 1000 token（约 3500 字符）的生成速度，其性能超越了 GPT-4 和 GPT-4o。

---

## 推测解码技术详解

### 传统解码的局限性

在传统的大型语言模型推理中，每个 token 的生成都依赖于之前生成的全部 token 上下文。这种逐步生成的方式导致了较高的延迟。

### 推测解码的优势

推测解码通过并行化生成 token，使用户能够同时预测多个 token，同时确保生成内容不偏离给定上下文。

Cursor 开发了“推测编辑”算法，通过更长的推测显著加速代码编辑。在部分文本重写场景（如代码生成）中，当调用方对生成内容有较强预判时，这种长推测成为可能。Fireworks 利用这种推测技术显著提升了响应速度。

推测结果始终通过确定性（贪婪）生成进行验证。服务器会找到与 temperature=0 时模型生成结果匹配的最长“推测”字段前缀，然后根据请求参数（包括 temperature）继续正常生成。

通过推测解码 API，Fireworks 部署了专门微调的 Llama-3-70b 模型，用于“快速应用”编码任务。与标准 Llama-3-70b 推理相比，该模型实现了 13 倍加速，相较于之前的 GPT-4 推测编辑部署提升了 9 倍，最终达到了约每秒 1000 token 的生成速度。

---

## 如何开始使用推测解码

使用推测解码功能非常简单，只需在 Fireworks API 中设置相应标志即可启用。

---

## 总结

传统的大型语言模型在处理复杂任务时，往往难以提供高效、准确的响应。而借助 Fireworks AI 推理架构，Cursor 不仅克服了这些局限性，还显著提升了代码生成和编辑的速度与准确性。通过推测解码技术，Cursor 实现了每秒 1000 token 的处理速度，为开发者提供了更加高效的工具支持。
原文链接: https://fireworks.ai/blog/cursor
Cursor如何使用Speculative Decoding API构建Fast Apply

最新文章