DeepMind OPRO提示优化方法解析:提升LLM性能的新策略

作者:API传播员 · 2025-09-26 · 阅读时间:5分钟
最近,关于如何通过无梯度(即不使用微调)方法优化大型语言模型(LLM)的研究引起了广泛关注。一种创新的方式是结合无梯度和梯度方法,在多个LLM的协作中实现优化。本文将探讨DeepMind提出的OPRO(Optimization Prompting)技术及其在提示[优化领域的应用](https://www.explinks.com/blog/ua-mastering-llm-reasoning-techniques-optimization-and-application)。

---

### OPRO的研究目标与核心理念

本研究的主要目标并非取代基于梯度的优化方法,而是探索如何通过快速工程([Prompt](https://prompts.explinks.com/) Engineering)提升LLM的性能。研究明确指出,OPRO并不试图超越传统的梯度优化,而是通过迭代优化提示的方式,探索[提示工程](https://www.explinks.com/blog/wx-large-model-development-understanding-prompt-engineering)的潜力。

研究还表明,LLM对不同提示格式的敏感性较高,而最佳提示格式通常是特定于模型和任务的。这一发现进一步凸显了提示工程在提升模型性能中的重要性。

---

### 提高稳定性与探索多样性

OPRO的一个重要特点是其对稳定性和可靠性的关注。为了提高稳定性,OPRO在每次推理(即优化步骤)中生成多个解决方案。这种方法允许LLM同时探索多种可能性,从而快速发现最优解的方向。这种多样化的探索过程最终形成了一个收敛到最优解的轨迹,使得OPRO成为一种基于提示的优化路径。

---

### 提示工程的灵活性与实用性

研究再次展示了LLM的灵活性和实用性,尤其是在利用提示工程完成一些传统方法无法实现的任务方面。尽管LLM在生产环境中的一个主要挑战是推理时间延迟,但OPRO的迭代优化过程为解决这一问题提供了新的思路。通过这种方法,可以生成优于人类设计的提示,且这些提示能够更好地适应特定任务和模型的需求。

---

### OPRO的迭代优化过程

OPRO的核心在于其迭代优化过程。以下是其元提示的组成部分及示例:

#### 元提示结构

元提示由以下四个组件组成:
1. **元指令**:提供任务背景和评分标准。
2. **解决方案得分对**:展示提示与其对应的得分。
3. **优化任务与输出格式**:定义输入输出格式及优化目标。
4. **元指令**:要求生成新的高分提示。

#### 示例代码

以下是元提示的部分示例代码:

元指令

I have some texts along with their corresponding scores.
The texts are arranged in ascending order based on their scores,
where higher scores indicate better quality.

解决方案得分对

The following exemplars show how to apply your text:
you replace in each input with your text, then read the input
and give an output. We say your output is wrong if your output is
different from the given output, and we say your output
is correct if they are the same.

优化任务输出格式

input:
Q: Alannah, Beatrix, and Queen are preparing for the new school year and
have been given books by their parents.
Alannah has 20 more books than Beatrix.
Queen has 1/5 times more books than Alannah.
If Beatrix has 30 books, how many books do the three have together?
A:
output:
140

通过这种迭代优化过程,OPRO能够逐步生成新的提示,并根据先前提示的表现不断提高测试精度。

---

### OPRO的性能表现

研究表明,OPRO优化的提示在多个任务上的表现优于人类设计的提示。例如:
- 在GSM8K数据集上,OPRO优化的提示比人类设计的提示高出8%。
- 在更复杂的大型任务中,性能提升高达50%。

下图展示了OPRO在无梯度优化和上下文领域中如何融入LLM的数据传递过程。

---

### 对未来的展望

随着提示工程技术的不断发展,研究者们正在采用一种更迭代的方法,综合考虑成本、延迟和复杂性等因素。未来,如果能够开发一个位于游乐场和自主代理之间的用户界面(UI),将极大地便利提示工程的实验和优化。这种UI可以允许用户定义例程并进行多次迭代循环,从而进一步提升提示优化的效率。

---

### 总结

OPRO技术展示了通过提示工程优化LLM性能的巨大潜力。尽管目前其在生产环境中的实际应用仍存在一定限制,但在设计阶段的表现已经非常出色。通过迭代优化提示,OPRO不仅提升了模型的性能,还为提示工程领域提供了新的思路和方法。未来,随着相关技术的进一步发展,OPRO有望在更多实际场景中发挥作用。

---

原文链接:
原文链接: https://blog.kore.ai/cobus-greyling/a-new-prompt-technique-from-deepmind-called-optimisation-by-prompting-opro