所有文章 > AI驱动 > 深度对谈LangChain创始人:软件2.0的开发范式和AI Agent的威力
深度对谈LangChain创始人:软件2.0的开发范式和AI Agent的威力

深度对谈LangChain创始人:软件2.0的开发范式和AI Agent的威力

ChatGPT之后,人工智能的下一个重大转折点是能够使用大型语言模型(LLMs)自主与世界互动的智能体(AI Agent)的到来。像AutoGPT这样的项目迅速走红,但随后也因为现实没有达到炒作的预期而迅速降温。

但今年开始发生了一些有趣的事情——更加现实的AI Agent开始上线,并在客户支持或编程等领域获得产品吸引力。构建和部署智能体的新方法正在提高它们的性能和可靠性。

这很重要,因为AI Agent仍然是AI承诺的关键:大型语言模型很棒,但让AI真正能够代表你计划和行动……那才是事情变得真正有趣的地方。AI越能成为工作者而不是工具,它就能为我们提供更多的助力。

为了探讨这一主题,红杉美国团队在”Training Data”播客上与LangChain的创始人兼首席执行官Harrison Chase进行了交谈。Harrison在ChatGPT甚至发布之前就开始创建支持大型语言模型的AI Agent基础设施,LangChain已经成为开发AI Agent应用程序的默认框架。

注意:下文所说的智能体就是AI Agent。

内容目录

核心结论:软件2.0的开发范式和自定义认知架构的威力

  • 智能体的谱系:简单和自主模式,以及”幸福的中间地带”
  • 定制的认知架构是否只是权宜之计?
  • 软件2.0的开发范式

到底什么是智能体与智能体的未来

  • 什么是智能体?以LLM为中心的应用控制流程
  • 智能体有简单模式和完全自主模式
  • LangChain在智能体生态系统扮演的角色:“幸福的中间地带”,构建“刚刚好”的智能体
  • 智能体是下一个大事件吗?
  • 为什么第一批自主智能体没有成功?

构建认知架构与自主智能体的意义

  • 什么是认知架构?
  • LLM做非常通用的智能体推理,非通用控制循环不会在LLM中
  • 智能体的进展和空间
  • 区分通用和定制,“专注于让你的啤酒味道更好”
  • 自主智能体完美地工作,意味着人类将专注于更高级的事物

智能体的应用落地与LangChain的价值

  • 哪些智能体的落地应用已经成熟?
  • 最有前途的认知架构是什么?规划、推理是通用认知架构,此外有定制架构
  • UX可以影响架构的有效性
  • LangChain不介入模型层和数据库层
  • 微调与提示是互补的
  • LangSmith和LangGraph?
  • 现有的可观测性工具,哪些运行在LLM上哪些运行在其他地方?

关于AI创业:一切还在早期

一、软件2.0的开发范式和自定义认知架构的威力

1、AI Agent的谱系:简单和自主模式以及”幸福的中间地带”

让我们将智能体定义为任何允许大型语言模型(LLM)控制应用程序流程的应用程序。

事后看来,很明显AutoGPT太过通用且没有约束,无法满足我们的期望。虽然它激发了人们的想象力,作为大型语言模型如何发展成通用智能体的概念验证,但缺乏约束使得它无法可靠地执行有用的任务。

新一代智能体背后的秘诀是它们使用定制的认知架构来提供指导和控制状态的框架,以保持智能体的专注,不偏离轨道,同时充分利用LLM的全面能力和特性。

将我们在野外看到的智能体类型框架化的一个有用方法是在简单、硬编码的智能体和完全自主的智能体之间进行谱系划分。这种框架揭示了“幸福的中间地带”,在这里我们最有可能在近期到中期看到有用的智能体出现。

在谱系的最简单端,LLMs充当“路由器”,决定走哪条路径,也许有一个分类步骤。在这种情况下,LLM调用控制应用程序的流程,但大部分逻辑仍然是硬编码的。在另一个极端,你拥有完全自主的智能体,如AutoGPT。

基于简单链的智能体不够灵活或强大,无法真正利用LLM范式,而完全自主的智能体失败太频繁,无法发挥作用。

开发者们正在智能体谱系的中间找到一个恰到好处的“刚刚好”的平衡点,他们将很多控制流程交给了大型语言模型(LLMs),但仍然保持了一套轨道和“状态”感。

这个“刚刚好”的中间地带提供了最佳的权力、灵活性和控制的平衡,但它也是开发者最难构建的智能体类型——它需要一个结构化但也是不确定的认知架构。一个完全自主的智能体可以用很少的代码实现;在极端情况下,你只需要在for循环中让智能体每步选择一个行动。简单的智能体也很容易编码,因为需要控制的随机变量很少。在中间地带开发需要你将大量的控制权(以及因此产生的随机变量)交给LLMs,同时也要控制高层次的应用程序流程和状态管理。

Harrison在我们的播客上分享了Jeff Bezos的一个精彩引述:“专注于让你的啤酒味道更好”,他将20世纪初酿酒厂自己发电和科技公司在AWS之前运行自己的基础设施进行了类比。在一个智能体经常摔倒的世界中,一个在SWE-bench上12-13%的表现被认为是最先进的水平,实现一个定制的认知架构绝对可以让你的啤酒味道更好。

2、定制的认知架构是否只是权宜之计?

但能持续多久呢?Harrison在我们的AI Ascent会议上的演讲中也提出了这个问题,他询问基础的大型语言模型(LLMs)的改进是否会逐渐取代开发者在“幸福的中间地带”构建的越来越多的推理和规划。

换句话说,定制的认知架构是否只是权宜之计?

这是一个合理的问题:许多最早的基于提示工程的智能体架构(比如思维链)默认地融入了LLMs的未来迭代中,消除了围绕LLM构建它们的必要性。我们相信许多大型研究实验室的研究人员正专注于推理、规划和搜索问题。

Harrison的看法是,越来越多的通用推理将默认地融入LLMs,但仍需要应用或领域特定的推理。

作为软件工程师,你规划和执行行动以达成目标的方式与作为科学家的工作方式大相径庭,而且作为不同公司的科学家,情况也有所不同。

领域和应用特定的推理空间如此之大,以至于不能有效地编码在通用模型中。

3、软件2.0的开发范式

使用大型语言模型(LLMs)开发应用程序与软件1.0开发是不同的范式,需要新的方法来实现可观测性和评估。

Harrison认为,许多传统的软件开发工具不足以应对LLM应用程序的不确定性本质。随着智能体和控制应用程序逻辑的新方法的出现,使用可观测性和测试来监控应用程序的行为变得至关重要。

如果你正在构建一个定制的认知架构,以下是一些需要考虑的事情:

  • 关于应用程序开发:你可能需要设计一个“状态”图,然后需要使用持久层、后台异步编排、状态的循环处理等进行管理和部署。Harrison看到这种模式在智能体部署中经常出现,LangGraph旨在帮助开发者为这种新范式进行构建。
  • 关于可观测性和测试:现有的监控工具没有提供你需要的洞察力来追踪LLM调用出了什么问题。在随机世界中,测试也有所不同——你不是运行一个简单的“测试2=2”单元测试,这是计算机可以轻松验证的。测试变成了一个更微妙的概念,使用像成对比较(例如Langsmith,Lmsys)这样的技术,以及跟踪改进/退步。所有这些都要求一套新的开发工具。

“刚刚好”智能体的崛起令人兴奋之处在于,它有巨大的潜力来创造为我们工作且在我们控制之下的软件。实现这一潜力不仅取决于模型变得更好(它们肯定会),而且还依赖于这一全新的工具生态系统来管理这种根本上全新的应用程序开发。

二、到底什么是AI Agent与其未来

哈里森·蔡斯:现在一切都还非常早期,有很多东西需要建造。GPT-5将会问世,它可能会让你做的一些事情变得无关紧要,但在这个过程中你会学到很多东西。我坚信,这就像是变革性的技术,所以你对它了解得越多越好。

索妮娅·黄:您好,欢迎来到《训练数据》。我们今天有哈里森·蔡斯,LangChain的创始人兼首席执行官。哈里森是智能体生态系统中的传奇人物,作为首位将LLMs与工具和行动联系起来的产品远见者。LangChain是AI领域最受欢迎的智能体构建框架。今天,我们很高兴向哈里森询问智能体的现状、未来潜力和前进的道路。哈里森,非常感谢你加入我们。欢迎来到我们的节目。

哈里森·蔡斯:当然,感谢你们邀请我。

1、什么是智能体?以LLM为中心的应用控制流程

索妮娅·黄:也许只是为了设定舞台,智能体是每个人都想更多了解的话题。你几乎从LLM浪潮开始以来就一直处于智能体构建的中心。所以也许首先设定一下舞台。

智能体究竟是什么?

哈里森·蔡斯:我认为定义智能体实际上是有点棘手的。

人们可能对它们有不同的定义,我认为这是相当公平的,因为LLMs和与智能体相关的一切仍然处于生命周期的早期阶段。

我对智能体的思考方式是,当一个LLM在某种程度上决定应用程序的控制流程时。我的意思是,如果你有一个更传统的RAG链,或者检索增强生成链,步骤通常事先已知,首先,你可能要生成一个搜索查询,然后检索一些文档,然后生成一个答案。然后你会将其返回给用户。这是一个非常固定的事件序列。

当我想到开始变得具有智能体特性的东西时,是你将一个LLM置于中心并让它决定它究竟要做什么。

所以有时候它可能会查找搜索查询。其他时候,它可能不会,它可能只是直接响应用户。也许它会查找搜索查询,得到结果,再查找另一个搜索查询,再查找两个搜索查询,然后做出响应。所以你让 LLM 来决定控制流。

我认为还有一些其他可能更时髦的东西适合这个范畴。

工具使用通常与智能体联系在一起。我认为这是有意义的。因为当你有一个LLM决定要做什么时,它决定要做什么的主要方式是通过工具使用。所以我认为这些事情是相辅相成的。

内存的某些方面通常与智能体联系在一起。我认为这也是有道理的,因为当你有一个LLM决定要做什么时,它需要记住它之前做了什么。所以像工具使用和记忆是松散关联的。

但对我来说,当我想到一个智能体时,它真的是有一个LLM决定你的应用程序的控制流程。

帕特·格雷迪:哈里森,我刚才从你那里听到的很多内容都是关于决策的。我一直把智能体看作是一种行动的采取。

这两件事是相辅相成的吗?智能体行为更多是关于一个而不是另一个?你怎么看待这个?

哈里森·蔡斯:我认为它们是相辅相成的。

我认为我们所看到的智能体所做的很多事情是决定采取什么行动,从所有意图和目的来看。

我认为采取行动的大难题是决定采取正确的行动。所以我确实认为解决一个问题自然会导致另一个问题。在你决定行动之后,通常有一个系统围绕着LLM,然后去执行那个行动并将其反馈到智能体中。所以我认为,是的,我确实认为它们是相辅相成的。

2、智能体有简单模式和完全自主模式

索妮娅·黄:那么哈里森,看起来主要的区别就是,智能体和像链这样的事物之间的区别在于,LLM本身正在决定下一步要采取什么步骤,下一步要采取什么行动,而不是这些被硬编码。这是一种公平区分智能体是什么的方法吗?

哈里森·蔡斯:是的,我认为这是正确的。而且也有不同的层次。

举个极端的例子,你可以有一个路由器来决定走哪条路。因此,在您的链条中可能只有一个分类步骤。所以LLM仍然在决定,比如要做什么,但它是一个非常简单的决定方式。

你知道,在另一个极端,你有这些完全自主的智能体类型的东西。然后在这两者之间有一个完整的谱系。所以我认为这基本上是正确的,尽管我只是想指出,就像LLM领域最近大多数事情一样,有很多细微差别和灰色地带。

3、LangChain在智能体生态系统扮演的角色: “幸福的中间地带”,构建“刚刚好”的智能体

索妮娅·黄:明白了。所以从控制到完全自主的决策和逻辑,这些是智能体的谱系。

你认为LangChain在智能体生态系统中扮演什么角色?

哈里森·蔡斯:我认为现在我们真的专注于让人们更容易在谱系的中间创建一些东西。出于一系列原因,我们已经看到这是目前建立代理的最佳地点。

所以我们看到了一些更完全自主的东西引起了很多兴趣,原型也很快出台。完全自主的东西实际上非常简单,但我们看到它们经常偏离轨道。我们看到人们想要更有限制的东西,但比链更灵活和强大一些。

所以我们最近专注的很多事情,是作为一个编排层,使创建这些智能体成为可能,特别是这些介于链和完全自主智能体之间的中间东西。我可以更深入地介绍我们在那里究竟在做什么。但在高层次上,那就是我们想象中的编排框架,就是LangChain所在的位置。

索妮娅·黄:明白了。所以有链,有完全自主的智能体,有一个中间的谱系,你的甜蜜点在中间,使人们能够构建智能体。

哈里森·蔡斯:是的,显然,随着时间的推移,这一点也发生了变化。所以反思LangChain的演变是很有趣的。

你知道,我认为当LangChain刚开始时,它实际上是链的组合。然后我们有一个类,这个智能体执行器类,基本上是这个完全自主的智能体。我们开始向这个类添加更多的控制。

最终,我们意识到人们想要的灵活性和控制比我们用那个类给他们的要多得多。所以,最近,我们一直在大力投资LangGraph,这是LangChain的一个扩展,真正针对定制智能体,它们位于中间某个地方。

我们的重点,随着时间的推移,随着领域的发展而发展。

4、智能体是下一个大事件吗?

索妮娅·黄:太有趣了。也许还有一个最后的设定舞台问题。我们的核心信念之一是智能体是AI的下一个大浪潮,我们正作为一个行业从副驾驶转向智能体。

我很好奇你是否同意这种看法,以及为什么或为什么不?

哈里森·蔡斯:是的,我大体上同意这种观点,我认为这对我来说如此令人兴奋的原因是,副驾驶仍然依赖于有这个人类在循环中。所以从某种意义上说,有一个上限,你可以让另一个系统完成的工作量。所以在这方面有点限制。

我确实认为围绕正确的UX和人类智能体交互模式有一些非常有趣的思考要做。但我确实认为它们会更接近于智能体做了一些事情,可能与你一起核对,而不是一个不断在循环中的副驾驶,我只是认为它更强大,给你更多的杠杆,如果它们做的越多,这也是非常矛盾的,因为随着你让它自己做事情,它出错或偏离轨道的风险就越大。所以我认为找到正确的平衡将非常非常有趣。

5、为什么第一批自主智能体没有成功?

索妮娅·黄:我记得回到2023年3月左右。有一些这样的自主智能体真的吸引了大家的想象力,比如BabyAGI AutoGPT,一些这样的。

我记得,Twitter对对此非常非常兴奋。看起来,第一代智能体架构并没有完全满足人们的期望。我想你为什么会这样认为?你认为我们现在在智能体炒作周期的哪个阶段?

哈里森·蔡斯:是的,我想首先考虑智能体炒作周期。

我认为AutoGPT绝对是开始。然后,它是GitHub上有史以来最受欢迎的项目之一。所以炒作周期,我会说从2023年春天到2023年夏天左右开始。然后我个人感觉从夏末到2024年新年开始,有一点低谷/下降趋势,我认为从2024年开始,我们开始看到一些更现实的东西上线。

我会指出我们在LangChain与Elastic合作的一些工作,例如,他们在生产有点像Elastic Assistant和Elastic Agent。所以我们看到了Klarna客户支持机器人上线,引起了很多炒作。我们看到Devin,我们看到Sierra。这些其他公司开始在智能体领域出现。所以考虑到炒作周期,谈论为什么AutoGPT风格的架构并没有真正奏效,它非常笼统,非常不受限制。我认为这让它的兴奋和激发了人们的想象力。但我认为实际上对于人们想要自动化的事情,提供即时的商业价值,实际上有很多事情,这是一个更具体的事情,他们希望这些智能体去做。而且真的有很多规则,他们希望智能体遵循,或者他们希望它们以特定的方式做事情。

所以我认为在实践中,我们看到的这些智能体,它们更像是我们所说的定制认知架构,你通常希望智能体以某种方式做事情。当然,其中有一定的灵活性。否则,你知道,你只会编码它。但这是一种非常有针对性的思考方式。这就是我们今天看到的大多数智能体和助手。这只是更多的工程工作。这只是更多的尝试和看看什么有效,什么无效,这更难做。所以它只是需要更长的时间来构建。我认为这就是为什么,你知道,这就是为什么一年前不存在,或者类似的事情。

三、构建认知架构与自主AI Agent的意义

1、什么是认知架构?

索妮娅·黄:既然你提到了认知架构,我喜欢你对它们的思考方式,或许你可以解释一下,比如,什么是认知架构?我们应该如何思考它们,有什么好的思维框架吗?

哈里森·蔡斯:是的,我对认知架构的思考方式基本上是你的大型语言模型(LLM)应用程序的系统架构是什么?

我的意思是,如果你正在构建一个应用程序,其中有一些步骤使用算法。你用这些算法做什么?你是用它们仅仅生成最终答案吗?你是用它们在两个不同的事情之间进行路由吗?你有一个有很多不同分支的复杂架构吗?也许有一些循环在重复?或者你有一个循环,基本上你会在这个循环中运行这个LLM,这些都是认知架构的不同变体,而认知架构只是花哨的说法,从用户输入到用户输出,数据流、信息流、LLM调用在这个过程中发生了什么。

我们越来越多地看到的,尤其是当人们试图将智能体真正投入生产时,是这个流程特定于他们在其领域中的应用程序。所以也许他们想要立即进行一些特定的检查,之后可能会采取三个具体步骤。然后每个选项都可以选择回循环,或者有两个单独的子步骤。

因此,如果你仔细想想,我们看到这些更像是你正在绘制的图,我们看到越来越多的基本上是定制和专门的图形,因为人们试图沿着他们的应用程序限制和引导智能体。

我之所以称之为认知架构,是因为你知道,我认为LLMs的很多力量在于推理和思考该做什么。所以,你知道,我可能会有一个认知心理模型来执行一个任务。我基本上只是将这个心理模型编码成某种软件系统,某种架构。

2、LLM做非常通用的智能体推理非通用控制循环不会在LLM中

帕特·格雷迪:你认为这是世界发展的方向吗?因为我在那里听到了两件事。

一是,它非常定制化。第二是,它相当粗暴,就像在很多方面相当硬编码。

你认为这是我们的发展方向吗?或者你认为这是一个权宜之计,而在某个时候,会出现更优雅的架构,或者一系列默认的参考架构?

哈里森·蔡斯:这是一个非常非常好的问题。我花了很多时间思考这个问题。

我认为,极端情况下,你可以认为如果模型在规划方面真的非常非常好,非常可靠,那么你可能有的最好的东西就是这个循环的for循环,调用LLM,决定做什么,采取行动然后再循环。就像所有这些关于我期望模型如何表现的限制,我只是把它放在我的提示中,模型就会明确地遵循。

我确实认为模型在规划和推理方面会变得更好,当然。我不太认为它们会达到那种水平,因为各种原因。

我认为,第一,效率。如果你知道在步骤B之后总是要做步骤A。你可以直接按顺序放。第二,可靠性也是如此。这些都是我们谈论的不确定性事物,特别是在企业环境中,你可能会想要更多的安慰,如果它总是应该在步骤B之后做步骤A,它实际上总是会做步骤A而不是步骤B或者在步骤B之后。我认为创建这些东西会变得更容易,我认为它们可能会开始变得不那么复杂。

但实际上,这可能是一个热门观点,或者我的观点很有趣,你可以说,只是在循环中运行它的架构,你可以认为这是一个非常简单但通用的认知架构。然后我们在生产中看到的是定制和复杂的,有点像认知架构。我认为有一个单独的轴,那就是复杂但通用的定制或复杂但通用的认知架构。所以这将是一个真正复杂的计划步骤和反思循环或者像思维树之类的东西。

我实际上认为随着时间的推移,这个象限可能会消失,因为我认为很多这种通用规划和通用反思将被训练到模型本身中。但仍然会有很多非通用训练或非通用规划,非通用反思,非通用控制循环,基本上永远不会在模型中。

所以我认为这是谱系的两端,我非常看好。

索妮娅·黄:我猜你几乎可以认为LLM做非常通用的智能体推理,然后你需要领域特定的推理,而这些东西是你无法真正构建到一个通用模型中的东西

哈里森·蔡斯:100%,我认为,我认为定制认知架构的方式,就是你基本上把规划责任从LLM拿走,放到人类身上。

一些规划,你会越来越倾向于模型,越来越倾向于提示,但我认为他们总是会这样,我认为很多任务在他们的一些计划中实际上非常复杂。

因此,我认为我们还需要一段时间才能获得能够做到这一点的东西,超级可靠。

3、智能体的进展和空间
索妮娅·黄:看起来我们在过去的六个月左右在智能体方面取得了很多进展,就像我读到的一篇论文,普林斯顿SWE论文,他们的编码智能体现在可以解决12.5%的GitHub问题,而之前只是RAG的时候是3.8%。
所以感觉我们在过去的六个月里取得了很多进展,但12.5%还不够好,你知道,甚至不能取代一个实习生,对吧?所以感觉我们仍然有很大的空间。
我很好奇,你认为我们在哪里,对于一般的智能体以及你的客户正在构建智能体?比如,他们是不是达到了,我假设不是五星级的可靠性,但他们是不是达到了某种门槛,他们需要部署这些智能体到实际面向客户的部署?

哈里森·蔡斯:是的,所以我想说,SWE代理是一个相对通用的智能体,因为它应该能够在很多不同的GitHub代码库中工作。

我认为如果你看看Vercel的v0,它可能比12.5%更可靠,对吧?所以我认为这说明,是的,肯定有定制智能体不是五星级的可靠性,但是已经在生产中使用了。所以Elastic,我认为我们已经公开谈论过他们已经做了多个智能体。我认为这周是RSA,我认为他们在RSA上宣布了新的东西,那是一个智能体。

是的,我没有确切的可靠性数字,但是它们足够可靠,可以投入生产。一般智能体仍然很困难。是的,这就是长期上下文窗口、更好的规划、更好的推理将帮助这些通用智能体的地方。

4、区分通用和定制“专注于让你的啤酒味道更好”

索妮娅·黄:你和我分享了杰夫·贝佐斯(Jeff Bezos)的一句名言,就像,“专注于让你的啤酒更好。”

我认为它指的是在20世纪初,酿酒厂正在尝试制造自己的电力,自己发电。我认为今天很多公司都在思考类似的问题,比如,你认为拥有你的认知架构的控制真的会让你的啤酒味道更好吗?打个比方?或者,你放弃了模型的控制,只构建UI和产品?

哈里森·蔡斯:我认为这可能取决于你正在构建的认知架构的类型?

回到我们之前的一些讨论,如果你正在构建一个通用的认知架构,我不认为这会让你的啤酒味道更好。

我认为模型提供者将致力于这种通用规划,我认为像很好地致力于这些通用认知架构,你可以立即尝试。另一方面,如果你的认知架构基本上是你,对你支持团队思考某件事情的方式进行编码,或者内部业务流程,或者你知道的最佳方式,比如开发代码,或者开发这种特定类型的代码,或者这种特定类型的应用程序,是的,我认为这绝对会让你的啤酒味道更好,特别是如果我们正在走向一个这些应用程序正在工作的地方。

那么像逻辑,定制的商业逻辑或心理模型,我现在对这些LLMs进行了很多拟人化,但是像这些东西的最佳工作模型,100%。就像我认为这是你销售的关键,而且在某种程度上,我认为UX、UI和分销绝对仍然发挥作用。是的,我区分了通用和定制。

5、自主智能体完美地工作意味着人类将专注于更高级的事物

帕特·格雷迪:哈里森,在我们深入了解人们如何构建这些东西的一些细节之前,我们可以快速提高一个层次吗?所以我们的创始人唐·瓦伦丁以问“那又怎样?”这个问题而闻名。

所以我的问题是,那又怎样?让我们想象一下,自主智能体完美地工作。对世界意味着什么?生活会有什么不同?

哈里森·蔡斯:我认为在高层次上,这意味着,作为人类,我们将专注于不同的事物。

所以我认为,目前很多行业中正在进行的很多工作都是重复性劳动。因此,智能体的理念是,这些工作将会被自动化,让我们思考更高层次的问题,比如这些智能体应该做什么,也许利用它们的输出进行更创造性的工作或在这些输出的基础上进行更高层次的工作。

所以我认为,你可以想象引导一个公司的整个发展,你正在外包你通常必须雇佣的很多职能。所以你可以在有一个营销智能体、一个销售智能体的情况下扮演CEO的角色,基本上让你将这些工作外包给智能体,让你做很多有趣的战略思考、产品思考,也许这取决于你的兴趣。

但我认为在高层次上,它会让我们自由地做我们想做的事情和我们擅长的事情,自动化很多我们可能不一定想做的事情。

四、AI Agent的应用落地与LangChain的价值

1、哪些智能体的落地应用已经成熟?

帕特·格雷迪:你今天看到了这方面的一些有趣例子吗,比如已经实时投入生产的?

哈里森·蔡斯:我的意思是,我认为最大的,有两种类别或领域的智能体开始获得更多关注,一是客户支持,一是编码

所以我认为客户支持是一个很好的例子,比如,你知道,人们经常需要客户支持,我们在LangChain也需要客户支持。所以如果我们能雇佣智能体来做这件事,那将是非常强大的。

编码很有趣,因为我认为编码的有些方面,我的意思是,这可能是一个更哲学上的讨论。但是我认为编码的有些方面确实是非常创造性的,确实需要,我的意思是,真的很多产品思考,很多定位等等。

编码的有些方面也可能阻碍人们的创造力。所以如果我妈妈有一个网站的主意,她不知道如何将它编码实现,对吧?但是如果有一个智能体能够做到这一点,她就可以专注于网站的想法,基本上就是网站的范围,但是自动化这个过程。

所以我会说要绝对地说客户支持,今天确实已经产生了影响。编码方面,那里有很多兴趣。我不认为我们已经到达了,我不认为它像客户支持那样成熟。但是就有很多有趣的领域而言,这将是第二个值得一提的领域。

帕特·格雷迪:你对编码的评论很有趣,因为我认为这是让我们对AI非常乐观的事情之一。

这就是缩小从想法到执行的差距,或者缩小从梦想到现实的差距,你可以想出一个非常有创意、引人注目的想法。但你可能有没有办法将其变为现实,而AI似乎非常适合这一点。

我认为Figma的Dylan也经常谈论这个问题。

哈里森·蔡斯:是的,我认为这回到了这个想法,自动化那些阻碍创造的东西——我喜欢“从想法到现实”的措辞——它自动化了你可能不知道如何做或不想考虑的事情,但这些都是创造你想要的东西所必需的。

我认为这也是我花了很多时间思考的事情之一,就像在生成式AI和智能体的时代,作为一个建设者意味着什么?所以今天作为一个软件建设者意味着你要么是工程师,要么雇佣工程师之类的,对吧?

但我认为在智能体和生成式AI的时代,作为一个建设者意味着人们可以构建比今天更多的东西。因为他们手头上有所有这些知识,所有这些,有点像,所有这些其他的建设者,他们可以雇佣并非常便宜地使用。

我的意思是,我认为像智能或类似东西的通货化的一些说法,因为这些大型语言模型免费提供智能。我认为这确实说明了使这些新的建设者出现。

2、最有前途的认知架构是什么?

规划、推理是通用认知架构,此外有定制架构

索妮娅·黄:你提到了反思和思维链和其他技术,或许你可以说一下,我们现在对这些,我想认知架构能够做什么,对于智能体性能有何了解?也许只是,我很好奇你认为最有前途的认知架构是什么?

哈里森·蔡斯:是的,我认为,也许值得谈论一下为什么AutoGPT之类的东西没有奏效。

因为我认为很多认知架构都差不多,就是为了抵消其中的一些。我想,很久以前,基本上的问题是大型语言模型甚至不能很好地推理出第一步该做什么以及他们应该采取的第一步是什么。

所以我认为像思维链这样的提示技术在那里非常有帮助,它们基本上给了大型语言模型更多的空间去思考,一步一步地思考,对于特定步骤他们应该做什么。然后实际上开始越来越多地被训练到模型中。他们通过默认的方式做到了这一点。基本上每个人都希望模型这样做,所以是的,你应该将这一点训练到模型中。

我记得那时,Shunyu Yao发表了一篇很棒的论文,叫做ReAct,它基本上是第一个智能体的认知架构或类似的东西。它所做的一件事,一是让大型语言模型预测要做什么,那就是行动,但它增加了这个推理组件,所以它有点像思维链,它基本上增加了这个推理组件,他将其放入循环中,在每一步之前都要求它进行这种推理,你在那里运行它。

所以这种显式的推理步骤实际上已经变得不那么必要了,因为模型已经被训练了,就像他们已经训练了思维链一样,这种显式的推理步骤变得不那么必要了。

所以如果你看到人们今天在做ReAct风格的智能体,他们通常只是使用函数调用,而没有原始ReAct论文中实际的思维过程。但它仍然是这种循环,已经成为ReAct论文的同义词。所以这是智能体最初的很多困难。我不会完全将这些描述为架构。我将它们描述为提示技术。

但是现在我们已经让它工作了。现在,一些问题是什么?两个主要问题基本上是规划和然后意识到你已经完成了。

所以我所说的规划,就像我考虑如何做事情时,下意识或有意识地,我制定了一个计划,我将要做的步骤的顺序。然后我去做每一步。基本上模型在这方面有困难,他们难以进行长期规划,难以提出一个好的长期计划。然后如果你在这个循环中运行它,在每一步,你都在做计划的一部分,也许它完成了,或者也许没有完成。所以如果你只是在这个循环中运行它,你隐含地要求模型首先提出一个计划,然后跟踪计划的进度并继续前进。

所以我认为我们看到的一些规划认知架构是,好的,首先让我们增加一个明确的步骤,我们要求大型语言模型生成一个计划,然后,我们按照那个计划一步一步进行。我们将确保我们做每一步,这只是一种方式,就像,强制模型生成一个长期计划,并确实在继续之前做每一步,而不是像你知道,生成一个五步计划,做完第一步然后说,好的,我完成了或者类似的事情。

然后,我认为,一个独立但相关的东西是反思的想法,这基本上像是,模型实际上是否很好地完成了它的工作,对吧?所以,我可以生成一个计划,我将要去得到这个答案。我可以从互联网上得到一个答案。也许这完全是错误的答案,或者我得到了糟糕的搜索结果或者类似的事情。我不应该只是返回那个答案,对吧?我应该想想我是否得到了正确的答案。或者我是否需要再做一次,如果你只是在这个循环中运行它,你实际上是在隐含地要求模型这样做。

所以有一些认知架构出现了,以克服这一点,基本上增加了这一点作为一个明确的步骤,他们采取了一个行动或一系列行动,然后要求模型明确思考它是否正确完成了。

所以规划和推理可能是两个更受欢迎的通用,有点像,认知架构。有很多,像定制的认知架构,但那都超级绑定到商业逻辑等等。但规划和推理是通用的,我预计这些将越来越多地被默认训练到模型中。

尽管我认为他们会变得多好,这是一个非常有趣的问题,但这可能是一个单独的长期对话。

3、UX可以影响架构的有效性

帕特·格雷迪:哈里森,你在AI Ascent上谈到的一件事是用户体验(UX),我们通常认为它与架构处于谱系的相反端,你知道,架构是在幕后,UX是前台的东西。

但我们似乎处于一个有趣的世界,UX实际上可以通过允许你,例如,使用Devin回溯到计划过程中开始偏离轨道的点,来影响架构的有效性。

你能就UX及其在智能体或LLM中的重要性,以及你可能在那里看到的一些有趣的事情,发表一些看法吗?

哈里森·蔡斯:是的,我对UX非常着迷。我认为这里有非常多有趣的工作要做。

我认为它之所以如此重要,是因为这些LLM仍然不完美,仍然不太可靠,有出错的倾向。

这就是为什么聊天对于一些最初的交互和应用程序来说是如此强大的UX。你可以很容易地看到它在做什么,它将响应流回来,你可以很容易地通过回应它来纠正它,你可以很容易地提出后续问题。所以我认为聊天显然已经成为目前主导的UX。

我确实认为聊天有缺点。你知道,它通常是一条AI信息,一条人类信息。人类非常处于循环中,这非常像副驾驶类型的东西。

我认为,你越是能够将人类从循环中移出,它就能为你做更多的事情,它可以为你工作。我只是认为这是难以置信的强大和赋能。

然而,LLM并不完美,它们会出错。那么你如何平衡这两件事呢?我认为我们看到的一些有趣的想法,谈论Devin时,是基本上有一个像透明列表的东西,列出了代理所做的一切,对吧?你应该能够知道代理做了什么。这似乎是第一步。

第二步可能是能够修改它正在做的事情或已经做过的事情。所以如果你看到第三步出了问题,你可以在那里倒带,给它一些新的指示,甚至只是手动编辑决定,从那里开始。

我认为除了这种倒带和编辑之外,还有其他有趣的UX模式。

一种是像收件箱这样的想法,代理可以在需要时联系人类。所以你可能有10个代理在后台并行运行,每隔一段时间,它可能需要向人类寻求澄清。所以你有一个电子邮件收件箱,代理向你发送像“帮帮我,我在这里,我需要帮助”之类的信息,然后你在那个点帮助它。

另一个类似的是审查它的工作,对吧?所以我认为这非常强大。我们已经看到很多代理在写不同类型的东西,进行研究,像研究风格的代理,有一个很棒的项目,GPT Researcher,它有一些非常有趣的架构,围绕代理。我认为这是这种审查类型的好地方。好吧,你可以让代理写第一稿,然后我可以审查它。我可以基本上留下评论。

而且,有几种不同的方式可以实际发生。所以你知道你,最不涉及的方式是,我一次留下一堆评论,将它们发送给代理,然后它去修复所有的问题。另一个非常有趣的UX是这种,像,同时协作的。就像Google文档,但人类和代理同时工作,我留下评论,代理修复那个,当我在做另一个评论或类似的事情。我认为我认为这是另一种UX。这是相当复杂的设置和工作。

还有一种其他的UX事情,我认为很有趣,就是这些代理如何从这些交互中学习,对吧?我们谈论的是一个人在某种程度上,纠正代理或给予反馈。

如果我必须给出相同的反馈100次,那将是非常令人沮丧的,那会很糟糕。所以,是什么系统架构使它能够开始从中学习,我认为这非常有趣。

而且,所有这些都有待解决,我们在弄清楚这些事情的游戏中还非常早期。但我们确实花了很多时间思考这些问题。

4、LangChain不介入模型层和数据库层

帕特·格雷迪:事实上,这提醒了我,我不知道你是否知道这一点,但你因为在开发者社区中的活跃程度以及非常关注开发者社区中正在发生的事情,以及开发者社区中人们遇到的问题而闻名。

所以LangChain直接解决的问题,你正在建立一个企业来解决。然后我想你遇到了很多其他问题,只是范围之外的。所以我很好奇,在开发者尝试使用LLM构建或尝试构建AI的今天遇到的问题中,有哪些有趣的问题你们没有直接解决,也许如果你们有另一个企业,你们会解决?

哈里森·蔡斯:我的意思是,我认为两个明显的领域是,在模型层和数据库层。

所以我们没有构建向量数据库,我认为思考正确的存储是什么非常有趣。但你知道我們没有在做那个。我们没有构建基础模型。我们也没有进行模型的微调,像我们想要帮助数据整理的部分。绝对不是。但我们没有像为微调构建基础设施那样做。有Fireworks和其他公司。我认为这些非常有趣。我认为这些可能是人们目前立即遇到的基础设施层面的问题。

我确实认为有第二个问题,有第二个思考过程,那就是,如果代理确实成为未来,比如,会出现什么样的基础设施问题?正因为如此,所以,我认为我们现在说,我们会或不会做这些事情还为时过早?因为坦白说,我们还没有到达代理足够可靠,有这种整个代理经济出现的地步。

但我认为,你知道,代理的身份验证,代理的许可,代理的付款,有一个非常酷的启动,为代理支付,实际上,这是相反的,代理可以付钱给人类做事,对吧?所以我认为,我认为这真的很有趣,比如如果代理真的变得普遍,比如,需要什么工具和基础设施,我认为这与开发者社区需要什么东西来构建 LLM 应用程序有点不同,因为我认为 LLM 应用程序就在这里。代理商开始到达这里,但还没有完全到达这里。所以我认为这些类型的公司的成熟度不同。

5、微调与提示是互补的

索妮娅·黄:哈里森,你提到了微调,以及你们不会去那里。看起来提示和架构调用以及微调几乎是相互替代的。

你如何看待当前人们应该使用提示与微调的状态,以及你认为这将如何发挥作用?

哈里森·蔡斯:是的,我不认为微调和认知架构是相互替代的。我不认为它们是,实际上我认为它们在很多方面是互补的,因为当你有更多定制的认知架构时,你所要求的每个代理、每个节点或系统的每一部分所做的范围就会变得非常有限。这实际上对微调来说非常非常有趣。

6、LangSmith和LangGraph?

索妮娅·黄:也许实际上,就这一点而言,你能谈一谈LangSmith和LangGraph吗?就像帕特刚刚问你的,你没有解决什么问题?我很好奇,你解决了什么问题?以及它与我们之前讨论的所有智能体问题有何关联,比如,你所做的使状态管理更易于管理,使智能体更可控,你的产品如何帮助人们解决这些问题?

哈里森·蔡斯:是的,也许回溯一点。当LangChain刚发布时,我认为LangChain开源项目确实解决和处理了几个问题。

我认为其中之一基本上就是为所有这些不同的组件标准化接口。所以我们有大量的集成与不同的模型、不同的向量存储、不同的工具、不同的数据库等等。所以这一直是LangChain的大卖点,以及人们使用LangChain的原因。

在LangChain中,也有一些更高层次的接口,可以轻松地开始使用RAG或SQL问答或其他东西。还有一个更底层的运行时,用于动态构建链。

通过链,我的意思是,我们可以称它们为DAG,就像定向流程。我认为这种区分很重要,因为当我们谈论LangGraph以及LangGraph存在的原因时,它是要解决一个稍微不同的编排问题,即你想要这些可定制和可控的具有循环的东西,它们仍然在编排空间内。但我在链和这些循环和循环之间做了这种区分。

我认为,有了LangGraph,当你开始有循环时,就会出现很多其他问题,其中之一是持久层,这样你就可以恢复,你可以让它们在后台以异步方式运行。所以我们开始越来越多地考虑部署这些长期运行的、循环的、人类参与的应用程序。所以我们将开始越来越多地解决这个问题。

然后跨越所有这些的是LangSmith,自从公司成立以来,我们一直在研究它。那是可观测性和LLM应用程序的测试。所以从一开始,我们就注意到你将LLM置于系统的中心。LLM是非确定性的,你必须要有良好的可观测性和测试,以便有信心将其投入生产。

所以我们开始构建LangSmith。它与LangChain一起使用。还有像提示中心这样的东西,以便你可以管理提示,人类注释队列以允许这种人类审查,我实际上认为这是至关重要的,像在所有这些中,重要的是要问,这里实际上有什么新鲜事?我认为LLM的主要新特性是它们是非确定性的,所以可观测性更加重要。然后测试也更加困难。具体来说,你可能希望人类比审查软件测试更频繁地审查事情。所以很多工具、路由和LangSmith在这方面有所帮助。

7、现有的可观测性工具哪些运行在LLM上哪些运行在其他地方?

帕特·格雷迪:实际上,哈里森,你有没有一个经验法则,现有的可观测性、现有的测试,你知道,现有的填空将在LLM上工作的地方?与LLM足够不同,以至于你需要一个新产品,或者你需要一个新的架构,一种新的方法?

哈里森·蔡斯:是的,我在测试方面想过这个问题,从可观测性方面。我感觉这里几乎更明显需要新的东西。我认为这可能是因为使用多步骤应用程序,你需要一定程度的可观测性来获得这些洞见。

我认为很多“产品”,像Datadog,我认为它们真的很有目标,它们有这种很好的监控。但对于特定的跟踪,我不认为你可以像使用LangSmith那样容易地获得相同级别的洞见。我认为很多人花时间查看特定的跟踪,因为他们试图调试在特定跟踪上出错的事情,因为当你使用LLM时会发生所有这种非确定性。所以可观测性一直感觉像是需要在那里构建新的东西。

测试非常有趣。我对此思考了很多,我认为有两个可能像是测试中新的独特的东西。一个是基本上就是成对比较的想法。所以当我运行软件测试时,我通常不会比较结果,大多数情况下,它要么通过要么失败。如果我比较它们,可能是比较延迟峰值或类似的东西,但不一定是两个单独的单元测试的成对比较。但如果我们看看LLM的一些评估,人们信任的主要评估是这个LLMSYS,有点像竞技场,聊天机器人竞技场风格的东西,你真的可以并排判断两件事。所以我认为这种成对的东西非常重要,与传统的软件测试非常不同。

我认为另一个组成部分基本上是,根据你设置评估的方式,你可能在任何给定时间都没有100%的通过率。所以实际上随着时间的跟踪这一点变得很重要,看看你正在改进或者至少没有退步。我认为这与软件测试不同,因为你通常一切都通过了。

然后第三点只是人类参与其中的部分。所以我认为你仍然希望人类查看结果,就像,我不想说可能是错误的词,因为这样做有很多缺点,比如需要很多人类时间来查看这些东西。但像这些通常比一些自动化系统更可靠。如果你将它与软件测试进行比较,像软件可以像我通过看它就知道2等于2一样好地测试2等于2。因此,弄清楚如何让人类参与到这个测试过程中也非常有趣、独特和新颖。

五、关于AI创业:一切还在早期

帕特·格雷迪:我有几个非常笼统的问题要问你。

哈里森·蔡斯:酷,我喜欢一般性的问题。

帕特·格雷迪:你在AI领域最钦佩的人是谁?

哈里森·蔡斯:这是个好问题。我的意思是,我认为OpenAI在过去一年半里所做的一切都令人难以置信。所以我认为Sam,但还有那里的每个人,我认为从各方面来说,我都非常钦佩他们做事的方式。

我认为Logan在那里时在向人们传达这些概念方面做得非常出色。Sam显然值得很多赞誉,很多事情都发生了。他们不太知名,但是像David Dohan这样的研究人员,我认为绝对了不起。他做了一些早期的模型级联论文,我很早就在LangChain上和他聊过。是的,他对我思考问题的方式有很大的影响。所以我对他做事的方式有很多钦佩。

另外,你知道,我触及了所有可能的答案,但是我认为像马克·扎克伯格和Facebook,我认为他们用Llama和很多开源软件做得非常好。而且我也认为,作为CEO和领导者,他和公司接受这种方式的方式非常令人印象深刻。所以对此我非常钦佩。

帕特·格雷迪:说到这个,有没有一位CEO或者领导者,你尝试效仿他?或者你从他身上学到了很多关于你自己领导风格的东西?

哈里森·蔡斯:这是个好问题,我确实认为自己更像是以产品为中心的CEO。所以我认为扎克伯格在这方面的观察很有趣。Brian Chesky,我去年在红杉基础营地听他演讲,非常钦佩他思考产品和公司建设的方式。所以Brian通常是我对此问题的答案。但我不能说我已经深入了解了他所做的一切。

帕特·格雷迪:如果你给当前或有志于建立AI的创始人一个建议,你的一个建议会是什么?

哈里森·蔡斯:只是建造,尝试建造?一切都还非常早期,有很多可以建造的东西?

你知道,GPT-5将会问世,它可能会使你做的一些事情变得无关紧要,但在这个过程中你会学到很多东西。我非常非常相信这是一种变革性技术,所以你对它了解得越多越好。

帕特·格雷迪:关于这个有一个快速的轶事。只是因为我喜欢那个答案。我记得在2023年初我们第一次AI Ascent上,当我们刚开始更好地了解你时。我记得你坐在那里整天推代码。就像人们在舞台上讲话,你在听。你坐在那里整天推代码。所以当建议是建造时,你显然是一个采纳自己建议的人。

哈里森·蔡斯:我想,那是OpenAI发布插件的那一天,所以有很多要做的事情,我认为我没有在今年的红杉Ascent上这么做,所以在这方面让你失望了。

本文由智能小巨人科技编译

来源 | 王铮Silvia(ID:silviawz2023)

原文 | 红杉美国