徐慧志的个人博客

2024-04-22 用大语言模型打造AI Agent

发布于 2024年04月22日  •  2 分钟  • 970 字
Table of contents

人类需要的不仅仅是大模型,而是能做复杂的多步骤的任务的大模型,Agent因此诞生了。

知名的AI Agent

1. AutoGPT: https://github.com/Significant-Gravitas/AutoGPT

AutoGPT是一个由Significant Gravitas开发的开源项目,旨在创建一个自主的AI代理,能够持续地学习、成长并完成各种任务。

2. AgentGPT: https://agentgpt.reworkd.ai/

AgentGPT是一个由Reworkd.ai开发的项目,允许用户与大型语言模型代理进行交互,并指派任务和提供反馈。

3. 会自己玩Minecraft的 AI:

https://arxiv.org/abs/2305.16291 https://github.com/MineDojo/Voyager

这个AI系统能够在Minecraft游戏中自主采取行动、制定策略并完成任务,展现了强大的理解和规划能力。

**4. 由语言模型操控的机器人:Figure 01 **

Figure 01项目探索了由语言模型控制机器人的可能性。机器人能够根据语言指令采取行动。

视频链接: https://www.youtube.com/watch?v=Sq1QZB5baNw

论文: Inner Monologue: Embodied Reasoning through Planning with Language Models:https://arxiv.org/abs/2207.05608

5. 用大型语言模型自动驾驶: Talk2drive

https://arxiv.org/abs/2312.09397

Talk2Drive项目旨在利用大型语言模型来控制自动驾驶汽车,让汽车能够理解和执行自然语言指令。

AI Agent运作的原理

AI Agent的组成:

终极目标:这是Agent被赋予的最高层次目标或使命,是它所有行为和决策的根本驱动力。

记忆(经验):Agent会保留自己过去的观察、行动和结果,作为累积的经验和知识库,用于指导未来的决策。这相当于人类的记忆能力。

从环境中得知状态:通过各种传感器,Agent能感知当前所处的环境状态,例如视觉、声音等输入。这让它能根据具体情况做出反应。

计划(短期目标):基于终极目标、当前状态和过去经验,Agent会制定可实现的近期计划和子目标作为中介步骤。这需要策略规划和决策能力。

行动:Agent根据计划输出具体的行动命令,并在环境中执行,产生新的状态作为下一个循环的输入。行动的范围取决于Agent的机动性。

这种感知-规划-执行的循环让AI Agent有针对性地采取行动以实现目标。其中关键是Agent如何高效利用经验、规划未来行动路径。不同的Agent架构在具体实现方法上有所差异。

最后的目标

实现一个有执行力有记忆的ChatGPT, 例如MemGPT。(https://arxiv.org/abs/2310.08560)

注:以上笔记内容来自李宏毅教授的课程: INTRODUCTION TO GENERATIVE AI ,此篇文章内容包括第9讲。

Sein heißt werden, leben heißt lernen.

Der einfache Weg is immer verkehrt.