2024年AI Agent技术洞察:高朋满座,群智涌现

发布时间:2024-03-22 作者:中兴通讯AIM/无线UME大模型产品首席架构师 杜永生,中兴通讯AIM/无线UME大模型产品总体规划总工 郜艳琴

        自2023年初ChatGpt3.5推出后,不到3个月时间,随着论文《LLM Powered Autonomous Agents》的发布,AI Agent(智能体)技术立刻引起业界高度关注,继而OpenAI在11月开发者大会推出GPTS。目前,Agent在国内外已经成为大模型的主流产品形式。

        相对于大模型这种面向通用思考能力的产品,Agent作为一种角色代理或者说作为专注于特定领域任务的代理,技术上更加容易控制,输出准确率也更高,用户理解和调教起来更加方便。

        经过8个月的发展,Agent技术出现一些收敛的征兆,在这个阶段,我们针对Agent定义和基本原理、价值分析、价值驱动的技术发展分析,再结合我们的实验情况,对Agent做一个回顾和洞察,以指导我们后续的研究和工作方向。

 

当前Agent技术和基本原理

    

        从初期的结构化定义到当前的多模态,Agent的定义经过了Tool、社交型、工作流、多智能体合作、多模态等阶段。当前,我们把基于大模型,拥有学习和记忆能力,可以结合对外部环境的理解和历史记忆,提供对目标任务的思考,按照思考的结果进行技能执行,进而影响环境的虚拟角色,称之为Agent。其中环境(Environment)、感知(Perception)、思考(Think)、技能(Skill),是智能体感知、影响外部环境的行为,我们称为外驱行为。而记忆(Memory)和学习(Learning)则是一个改变自己的过程,我们称为内驱行为。

        Agent的典型部署场景如图1所示:Agent主要是衔接人类的意图、LLM(large language model)和生产环境。Agent把人类的意图目标,通过大模型拆解为子目标和相关任务,再把任务通过指令下发到生产环境。实际使用场景包扩通信领域工作流中的保障专家、企业办公领域的Office助理等拟人化场景等。

 

        基于图1,Agent的各个部分介绍说明如下:

        - 思考和技能:Agent接收用户的任务目标,通过LLM进行任务思考规划,然后映射子任务到对应技能。技能包括对其他Agent生产任务的间接指令交流,以及对生产环境直接执行的指令。对任务思考分解的方式,可以是整体规划后执行,也可以是迭代边分解边执行。

        - 环境和感知:对于任务的分析执行,需要结合当时任务的下上文环境。对于环境的理解,则需要首先通过一种建模方式,把实际的环境信息转换成机器能识别的语言,比如元宇宙是一种物理世界的环境建模方式,通信行业的数字孪生方案则是一种通信网络的环境建模方式。

        - 记忆和学习:Agent通过模仿或者强化学习从其他智能体、环境反馈中进行学习,并把学习的成果放入记忆中,下次遇到类似的问题进行借鉴处理。这种随环境学习改变的行为,对于智能体的自我演进有至关重要的作用。

 

Agent价值分析

 

        首先当前Agent的价值主要由LLM支撑,而LLM本质上是一个条件概率的生成模型,LLM通过提示词的不同,生成不同类型的输出,例如文本生成、任务拆解、逻辑推理、场景理解等。Agent的能力以LLM的输出能力为基础,构建拟人化的角色,服务于生产领域。

        其次从业界的主流观点看,Agent体现出来的价值,表现为人+多个虚拟人形成混合专家团队,撬动更大范围的工作,也就是一个人可以干多个人的事情。人做事的方式从人利用工具做事,转变为人驱动多个智能体,多个智能体再使用工具做事。相对工具来说,基于大模型的智能体能提供更加泛化、灵活的判断和决策思考。

 

中兴通讯实验成果

 

        目前中兴通讯结合自己对于LLM前沿知识的追踪、价值理解和对通信行业的深刻理解,构建了4种不同类型场景的Agent,包括保障助手、智能问答、故障助手、看网助手。

        其中用于重大活动保障场景的保障助手自动化程度较高,是把现实工作流投影到虚拟世界,由虚拟世界的重保专家、助理、排障专家等协作自动完成工作流,并通过总结上报、风险评估等方式和人进行衔接沟通。这是一个复杂的Job Agent类型,以L5- Full Autonomous Network为目标进行设计。

        另外3种Agent类型从技术角度看是Task Agent类型:

        - 智能问答是结合RAG+Agent技术构建面向ToB的知识库应用;

        - 故障助手结合故障知识库和API映射协助运维人员快速排出故障;

        - 看网助手:基于大小模型结合,多个Agent通过不同维度进行网络分析后,交给总的网络洞察Agent进行汇总,输出看网结果。

 

Agent发展趋势和技术拆解

 

        当前学术界的智能体主流分类如下,和中兴通讯的实验结果比较一致:

        - Logic Agent:基于对输入语言、多模态的理解再次生成语言和多模态输出的一类Agent;

        - Task Agent:面向具体任务,分解计划执行对应操作,过程中没有长期状态记忆的Agent;

        - Job Agent:面向较为抽象的工作职责和总体目标,感知环境,记忆过程状态,自生子目标推动工作前进的Agent。

        从发展趋势看,自我演进型Agent也非常重要,这类Agent能够自我学习。

        下面按照技术层次对主流Agent产品进行拆解,如表1所示。

        我们对以上技术进行进一步论文扫描和研究,可以发现:

        - 技术成熟性分析:表中有下划线的相关技术当前论文虽然不少,但在工业环境中还没有成熟解决方案;

        - 疑难项技术分析:其中环境模型、自学习技术最难解决。主要是因为其提出时间较长,但在物理生产中没有很好的实际使用方案,另外和大模型关联性不是很强,大模型的进展对这个技术影响小。

        - 潜力技术分析:自适应组织、探索、智能提示词、记忆、对话目前看有进一步发展的空间,可能在短期内是拉开Agent水平的关键。

        - 发展趋势分析:综合以上分析,Task Agent涉及的非成熟技术相对较少,只有1项;Job Agent涉及到5项非成熟技术,其中包括1个疑难项——环境建模;自我演进Agent涉及关键技术基本全都是疑难项。所以当前Task Job的发展速度可能最快,价值最高。

        - 当前产品分析:国内外主要产品集中在Task Agent类型上。

 

Agent趋势洞察

 

        通过以上分析,我们可以进一步得到如下结论:

        当前阶段以简单的任务智能体(Task Agent)为主,这种智能体涉及的技术较为成熟,容易复制推广,这和我们的产品实验情况感受一致,这类智能体的数量可能会快速增加。

        在上述成立的情况下,拉开Agent差距的是记忆、对话等技术。

        强大的个体智能体由于涉及增强学习和环境模型技术,实现比较困难,这和我们实验时在环境建模等方面投入的成本和最终的效果表现是相符合的。

        简单的任务智能体在大模型帮助下,能对其他智能体提供有启发的信息,如果能达到一定的数量,则满足群智涌现的两个必要条件中的一个;其次在大模型的抽象总结能力的帮助下,一个团队的智能体,能把来自不同智能体的多个关联性高的不同信息片段融合,形成信息增加,这样可能满足群智的另外一个必要条件;两个必要条件得到满足后,群体智慧现象可能会开始涌现。

        综上,经过学术跟踪和产品的实验探索,以及不同类型Agent的技术分解,我们提出一个Agent的洞察:未来一年中,普通智能体的数量会快速增加,群智现象可能会先于强大智能体涌现。

        基于这一洞察,我们未来需要进一步考虑在以下方向努力:

        - 建设可以快速生成Agent的低学习成本、低技术门槛框架技术;建设多智能体协作,管理群智涌现现象的群智控制中心;

        - 追踪Agent演进关键能力,包括环境模型建立、记忆、学习设计,深入挖掘记忆的潜力;

        - 建设给企业带来增益的企业数据分析、SOP工作流相关Agent产品。