
银行如何利用对话式 AI 实现客户服务转型
最近,关于如何通过无梯度(即无需微调)方法优化大型语言模型(LLM)的研究引起了广泛关注。一种创新的方式是结合无梯度和梯度方法,在多个LLM的协作中实现优化。本文将深入解析DeepMind提出的OPRO(Optimization Prompting)技术及其在提示工程(Prompt Engineering)中的实际应用。
本研究的主要目标并非取代基于梯度的优化方法,而是探索如何通过快速提示工程提升LLM性能。研究指出,OPRO并不试图超越传统梯度优化,而是通过迭代优化提示的方式,挖掘提示工程的潜力。
研究显示,LLM对不同提示格式非常敏感,而最佳提示格式通常是模型和任务特定的。这进一步凸显了提示工程在提升模型性能中的关键作用。
OPRO的一个显著特点是其对稳定性和可靠性的关注。为了提升稳定性,OPRO在每次推理(即优化步骤)中生成多个解决方案。这允许LLM同时探索多种可能性,从而快速发现最优解的方向。这种多样化探索过程最终形成收敛轨迹,使OPRO成为一种基于提示的优化路径。
研究进一步展示了LLM的灵活性和实用性,尤其是在完成一些传统方法无法实现的任务时。尽管LLM在生产环境中的一个挑战是推理延迟,OPRO的迭代优化过程为解决这一问题提供了新思路。通过OPRO,可以生成优于人类设计的提示,并使其更好地适应特定任务和模型需求。
OPRO的核心在于其迭代优化机制。以下是元提示的组成部分及示例:
元提示由以下四个组件组成:
## 元指令
I have some texts along with their corresponding scores.
The texts are arranged in ascending order based on their scores,
where higher scores indicate better quality.
## 解决方案得分对
The following exemplars show how to apply your text:
you replace <INS> in each input with your text, then read the input
and give an output. We say your output is wrong if your output is
different from the given output, and we say your output
is correct if they are the same.
## 优化任务输出格式
input:
Q: Alannah, Beatrix, and Queen are preparing for the new school year and
have been given books by their parents.
Alannah has 20 more books than Beatrix.
Queen has 1/5 times more books than Alannah.
If Beatrix has 30 books, how many books do the three have together?
A: <INS>
output:
140
通过这种迭代优化,OPRO能够逐步生成新的高效提示,并根据先前提示表现不断提升测试精度。
研究表明,OPRO优化的提示在多个任务上均优于人类设计提示:
下图展示了OPRO在无梯度优化和上下文环境中如何整合LLM数据流的过程。
随着提示工程技术发展,研究者采用迭代方法,综合考虑成本、延迟和复杂性等因素。未来,如果开发一个位于游乐场(Playground)与自主代理(Autonomous Agent)之间的用户界面(UI),将极大便利提示工程的实验和优化。该UI可让用户定义例程并多次迭代循环,从而进一步提升提示优化效率。
OPRO技术展示了通过提示工程优化LLM性能的巨大潜力。尽管在生产环境中的实际应用仍有限,但在设计阶段已展现出优异表现。通过迭代优化提示,OPRO不仅提升模型性能,还为提示工程提供新方法。随着相关技术发展,OPRO有望在更多实际场景中发挥重要作用。