Yellow Flower
Yellow Flower
Yellow Flower

一篇文章掌握智能体(Agent ) 产品的分析框架

一篇文章掌握智能体(Agent ) 产品的分析框架

2024年1月26日

以“斯坦福小镇”项目和复旦NLP实验室联合米哈游共同发表的LLM-based Agents论文问世为标志,Agent(智能体)概念日益受到市场关注。

下一代OS、原始AGI、生产力工具……随着大模型能力提升、Infra层日益完善,产业界、学术界、投资界都给予了Agent高度关注,并将其视为下一个AI前沿领域。与此同时,Agent也为企业的数字化变革带来了无限想象的空间。

面对市面上日益增加的Agent产品,企业应该如何科学地选择,让AI真正地落地,与实际业务场景深度融合,则需要一套科学的智能体产品分析方法论。

结合前沿理论、AI产品开发经验以及数百家客户访谈,我们为企业提供了一套易懂好用的“智能体分析框架”,从三大维度、六个要素出发,帮助企业全面评估一款智能体产品是否契合自身需求。

在进入分析框架之前,我们先从仿生的角度来理解一下智能体的原理和本质。

智能体原理:感知、决策、行动、记忆

智能体是人类在物理世界的思考行为方式,在数字世界的投射。智能体要展现出“智能”,模拟人类的思考行为方式,以至于代替人类完成一些任务,离不开感知、决策、行动、记忆这四个基本模块


感知:人类通过视觉、听觉、嗅觉、触觉去感知世界。相对应的,智能体用以感知外界环境的方式是对多模态信息的解析技术,包括OCR、多模态图像识别、语音识别等。

决策:人类的大脑皮层承担着思考决策的职责。现阶段,大语言模型在一定程度上模拟了大脑皮层这一角色。也正是这一项突破,让构建智能体成为可能。

行动:人类可以通过行动与外部环境交互,最直观的几种方式包括说话、写作等。在数字世界中,智能体则是通过执行各种工作流来完成每一个行动。

记忆:人类的记忆被存储在海马体中,有长期和短期之分,短期记忆用于存储临时信息,如果被联想、回忆的次数越多,就越深刻,进而变为长期记忆;反之则被遗忘。在智能体中,向量数据库担任了记忆的功能。

总体来讲,智能体就是在模拟人类在物理世界的思考行为方式,并在数字世界形成投射

评估智能体产品的三个维度:

交互入口、工作流、知识库

基于上述对于智能体原理的认知,我们从产品化的角度提出了一套智能体产品评估框架,从交互入口、工作流、知识库三个维度,帮助企业更好地选择符合自身需求的AI产品。

  • 交互入口:LUI、GUI

    作为用户与数字产品交互的首要触点,交互入口的形态很大程度上决定了用户的体验,以及使用产品的方式。

    在Web 2.0时代,互联网产品以图形用户界面(GUI)为主要交互入口,其优势在于图形化的界面清晰直观,相比计算机发展早期以命令行交互(CLI)的方式,更符合人类自然的交互逻辑。但随着产品功能的逐渐增加,GUI也随之变得越来越复杂冗余,拉高了用户的学习成本。

    ChatGPT问世之初,就以对话式的交互页面惊艳了一众使用者。这种界面被称为自然语言交互界面(Language User Interface, LUI),它提供了一种更为直观和人性化的交互方式,可以以对话的形式来使用产品和服务。这种交互方式的背后是大语言模型强大的理解和推理能力。

    OpenAI 推出的GPTs 就是一种Agent产品,它以问答机器人作为交互入口(感知),可以上传文件作为特定知识库(记忆),再通过跟其他APP连接,通过自然语言发送指令,让它以“专家”、“助手”的角色执行一系列任务(思考、行动)。

    如果你有深度使用过GPTs,就不难发现一个问题,GPTs很难执行复杂任务,你可以让它查询资料、订票、发邮件、简单的数据分析,但是很难让它完成更加复杂以及对于精确度要求较高的任务,如:把去年的销售数据整理成特定格式的报表,并结合某市场调研结果用PPT形式呈现出来,作为招标资料。如果我们把这个任务进行拆解,就会发现,我们不仅需要各种工具、还需要跨团队协作和专家经验把关。我们很难想象仅仅通过对话的形式就让AI把这件事情给做了。所以,处理复杂业务场景,人机协同是必然,这也意味着我们需要支持人机交互的GUI。

    我们认为,一款合格的(或者说完整的)智能体产品应该同时具备GUI、LUI两种交互入口,覆盖到企业简单任务和复杂人机协同任务的使用场景。


  • 工作流:全自动工作流、人机协同工作流

    工作流(Workflow)是指为了完成特定的业务目标,按执行顺序去定义的一系列任务,它可以帮助企业提高工作效率,提高任务的一致性和可追溯性——工作流对应智能体的“行动”模块。

    对应LUI和GUI,我们将工作流分为全自动工作流和人机协同工作流两种模式。

    当前市面上大部分AI智能体产品采用的是全自动工作流的方式。全自动工作流很大程度上来自RPA(Robotic Process Automation,机器人流程自动化)技术,触发全自动工作流后,中间无需人工介入,用于执行一些重复性高、规则性强的任务,例如抓取数据、筛选简历、分析报表等。

    然而,在企业实际业务场景中,能被全自动工作流覆盖的场景只占一小部分。更多时候,企业员工在一条工作流中,需要与多种工具、多个同事共同协作,把工具带来的效率提升和人的判断力、专业知识充分结合起来,才能更好地实现业务目标。

    人机协同工作流的重要性正体现在企业内部的这些复杂任务场景中,它能为企业内部的知识专家预留出介入的空间,去和AI进行交互。从而才有机会进一步地让人类的反馈参与到AI智能体的成长、进化之中。


  • 知识库:静态知识库、动态知识库

    知识库对应着智能体的“记忆”模块,它也是能让智能体变得比通用大语言模型更“聪明” “更懂你”的关键。企业将专有知识例如内部培训资料、行业知识、客户案例等存储进知识库,从而使这些知识可以被AI查找、调用,生成更符合企业需求的个性化内容。

    于是,我们将其分为静态知识库和动态知识库两类。

    顾名思义,静态知识库意味着企业将知识上传至知识库后,这些知识不会因为后续的生产活动而自主迭代,只有在人为上传新的内容后知识库才会发生变化。

    而动态知识库则是可以不断自我迭代的。这与人机协同模式息息相关。由于人类专家知识的持续介入,新知识会不断产生,于是知识库在每一次工作流执行完成后都会进行一次更新迭代,用户的行为模式也会在一定程度上影响到知识库的权重。智能体也会表现地越发智能。就好比当你犯错,别人纠正了你,于是你下次不会再犯是一个道理。

智能体的分类:

AI Agent与HITL Agent

为了帮助大家更加直观地利用好上述的分析框架,我们提出了HITL Agent 的概念。我们将智能体产品分为两类:AI Agent和HITL Agent,并给出了对应的公式。

AI Agent:问答机器人+全自动工作流+静态知识库

目前我们所看到的大部分智能体都属于AI Agent。他们往往以问答机器人作为交互入口,通过自然语言触发全自动的工作流,中间没有人工介入,多用于智能客服机器人,或批量信息自动化处理等场景(如简历筛选、报表分析等)。由于人只负责发送指令,并不参与对AI结果的反馈,所以知识库不会实时更新。

这类智能体产品适用于企业内部具体业务模块中存在重复性高、规则性强的业务场景,每个智能体扮演特定角色,例如HR、数据分析师、销售、客服等。

HITL Agent:智能工作台+人机协同工作流+动态知识库

HITL的全称是Human-in-the-loop,HITL Agent也可以称为人机智能体。对AI Agent形成补充。

HITL Agent的特点是人类专家可以在工作流中起到协作、反馈的作用。它以GUI作为交互入口,用于执行较为复杂的工作流,需要人工介入来确保质量,更适配大部分企业的精细化工作场景。工作流中不仅包含AI能力,还需包含各类多模态编辑器用于支持人机协作。由于人类专家的介入,知识库处于实时更新的状态。

HITL Agent的优势也可以用质量管理领域的PDCA(Plan-Do-Check-Act/Adjust)来理解。AI Agent可以执行Plan (计划)和Do(执行),而Check(校对)是缺失的,这也意味着无法进行Adjust(优化)。但HITL Agent则可以完成PDCA闭环,质量得到保证的同时,也让智能体的进化成为可能。

HITL Agent是通往AI Agent的必经之路

从实现「AI does all」的愿景来看,通用人工智能(AGI)的发展仍处于萌芽阶段,但在智能体框架的指导下,AI产品将在企业级应用中发挥越来越大作用。

当下,更加切实可行的方式是在重复性高、规则性强的业务场景中部署AI Agent,在精细化的办公场景中融入人机协作的HITL Agent,通过人类专家的知识反馈不断调优,让AI在特定业务场景下变得更“聪明”,也更“懂“企业。

即便在未来几年里,大语言模型没有大规模的性能提升,但依靠科学的智能体应用框架,持续积累的优质数据,依然能够帮助企业实现显著的生产力提升、陪伴式的降本增效和持续性的劳动力升级,从而为企业带来真正意义上的「智能进化」。


参考文献

[1]Matt Schlicht.The Complete Beginners Guide To Autonomous Agents

[2]陈昱志Yeutz.AIGC时代下的GUI与LUI该何去何从

以“斯坦福小镇”项目和复旦NLP实验室联合米哈游共同发表的LLM-based Agents论文问世为标志,Agent(智能体)概念日益受到市场关注。

下一代OS、原始AGI、生产力工具……随着大模型能力提升、Infra层日益完善,产业界、学术界、投资界都给予了Agent高度关注,并将其视为下一个AI前沿领域。与此同时,Agent也为企业的数字化变革带来了无限想象的空间。

面对市面上日益增加的Agent产品,企业应该如何科学地选择,让AI真正地落地,与实际业务场景深度融合,则需要一套科学的智能体产品分析方法论。

结合前沿理论、AI产品开发经验以及数百家客户访谈,我们为企业提供了一套易懂好用的“智能体分析框架”,从三大维度、六个要素出发,帮助企业全面评估一款智能体产品是否契合自身需求。

在进入分析框架之前,我们先从仿生的角度来理解一下智能体的原理和本质。

智能体原理:感知、决策、行动、记忆

智能体是人类在物理世界的思考行为方式,在数字世界的投射。智能体要展现出“智能”,模拟人类的思考行为方式,以至于代替人类完成一些任务,离不开感知、决策、行动、记忆这四个基本模块


感知:人类通过视觉、听觉、嗅觉、触觉去感知世界。相对应的,智能体用以感知外界环境的方式是对多模态信息的解析技术,包括OCR、多模态图像识别、语音识别等。

决策:人类的大脑皮层承担着思考决策的职责。现阶段,大语言模型在一定程度上模拟了大脑皮层这一角色。也正是这一项突破,让构建智能体成为可能。

行动:人类可以通过行动与外部环境交互,最直观的几种方式包括说话、写作等。在数字世界中,智能体则是通过执行各种工作流来完成每一个行动。

记忆:人类的记忆被存储在海马体中,有长期和短期之分,短期记忆用于存储临时信息,如果被联想、回忆的次数越多,就越深刻,进而变为长期记忆;反之则被遗忘。在智能体中,向量数据库担任了记忆的功能。

总体来讲,智能体就是在模拟人类在物理世界的思考行为方式,并在数字世界形成投射

评估智能体产品的三个维度:

交互入口、工作流、知识库

基于上述对于智能体原理的认知,我们从产品化的角度提出了一套智能体产品评估框架,从交互入口、工作流、知识库三个维度,帮助企业更好地选择符合自身需求的AI产品。

  • 交互入口:LUI、GUI

    作为用户与数字产品交互的首要触点,交互入口的形态很大程度上决定了用户的体验,以及使用产品的方式。

    在Web 2.0时代,互联网产品以图形用户界面(GUI)为主要交互入口,其优势在于图形化的界面清晰直观,相比计算机发展早期以命令行交互(CLI)的方式,更符合人类自然的交互逻辑。但随着产品功能的逐渐增加,GUI也随之变得越来越复杂冗余,拉高了用户的学习成本。

    ChatGPT问世之初,就以对话式的交互页面惊艳了一众使用者。这种界面被称为自然语言交互界面(Language User Interface, LUI),它提供了一种更为直观和人性化的交互方式,可以以对话的形式来使用产品和服务。这种交互方式的背后是大语言模型强大的理解和推理能力。

    OpenAI 推出的GPTs 就是一种Agent产品,它以问答机器人作为交互入口(感知),可以上传文件作为特定知识库(记忆),再通过跟其他APP连接,通过自然语言发送指令,让它以“专家”、“助手”的角色执行一系列任务(思考、行动)。

    如果你有深度使用过GPTs,就不难发现一个问题,GPTs很难执行复杂任务,你可以让它查询资料、订票、发邮件、简单的数据分析,但是很难让它完成更加复杂以及对于精确度要求较高的任务,如:把去年的销售数据整理成特定格式的报表,并结合某市场调研结果用PPT形式呈现出来,作为招标资料。如果我们把这个任务进行拆解,就会发现,我们不仅需要各种工具、还需要跨团队协作和专家经验把关。我们很难想象仅仅通过对话的形式就让AI把这件事情给做了。所以,处理复杂业务场景,人机协同是必然,这也意味着我们需要支持人机交互的GUI。

    我们认为,一款合格的(或者说完整的)智能体产品应该同时具备GUI、LUI两种交互入口,覆盖到企业简单任务和复杂人机协同任务的使用场景。


  • 工作流:全自动工作流、人机协同工作流

    工作流(Workflow)是指为了完成特定的业务目标,按执行顺序去定义的一系列任务,它可以帮助企业提高工作效率,提高任务的一致性和可追溯性——工作流对应智能体的“行动”模块。

    对应LUI和GUI,我们将工作流分为全自动工作流和人机协同工作流两种模式。

    当前市面上大部分AI智能体产品采用的是全自动工作流的方式。全自动工作流很大程度上来自RPA(Robotic Process Automation,机器人流程自动化)技术,触发全自动工作流后,中间无需人工介入,用于执行一些重复性高、规则性强的任务,例如抓取数据、筛选简历、分析报表等。

    然而,在企业实际业务场景中,能被全自动工作流覆盖的场景只占一小部分。更多时候,企业员工在一条工作流中,需要与多种工具、多个同事共同协作,把工具带来的效率提升和人的判断力、专业知识充分结合起来,才能更好地实现业务目标。

    人机协同工作流的重要性正体现在企业内部的这些复杂任务场景中,它能为企业内部的知识专家预留出介入的空间,去和AI进行交互。从而才有机会进一步地让人类的反馈参与到AI智能体的成长、进化之中。


  • 知识库:静态知识库、动态知识库

    知识库对应着智能体的“记忆”模块,它也是能让智能体变得比通用大语言模型更“聪明” “更懂你”的关键。企业将专有知识例如内部培训资料、行业知识、客户案例等存储进知识库,从而使这些知识可以被AI查找、调用,生成更符合企业需求的个性化内容。

    于是,我们将其分为静态知识库和动态知识库两类。

    顾名思义,静态知识库意味着企业将知识上传至知识库后,这些知识不会因为后续的生产活动而自主迭代,只有在人为上传新的内容后知识库才会发生变化。

    而动态知识库则是可以不断自我迭代的。这与人机协同模式息息相关。由于人类专家知识的持续介入,新知识会不断产生,于是知识库在每一次工作流执行完成后都会进行一次更新迭代,用户的行为模式也会在一定程度上影响到知识库的权重。智能体也会表现地越发智能。就好比当你犯错,别人纠正了你,于是你下次不会再犯是一个道理。

智能体的分类:

AI Agent与HITL Agent

为了帮助大家更加直观地利用好上述的分析框架,我们提出了HITL Agent 的概念。我们将智能体产品分为两类:AI Agent和HITL Agent,并给出了对应的公式。

AI Agent:问答机器人+全自动工作流+静态知识库

目前我们所看到的大部分智能体都属于AI Agent。他们往往以问答机器人作为交互入口,通过自然语言触发全自动的工作流,中间没有人工介入,多用于智能客服机器人,或批量信息自动化处理等场景(如简历筛选、报表分析等)。由于人只负责发送指令,并不参与对AI结果的反馈,所以知识库不会实时更新。

这类智能体产品适用于企业内部具体业务模块中存在重复性高、规则性强的业务场景,每个智能体扮演特定角色,例如HR、数据分析师、销售、客服等。

HITL Agent:智能工作台+人机协同工作流+动态知识库

HITL的全称是Human-in-the-loop,HITL Agent也可以称为人机智能体。对AI Agent形成补充。

HITL Agent的特点是人类专家可以在工作流中起到协作、反馈的作用。它以GUI作为交互入口,用于执行较为复杂的工作流,需要人工介入来确保质量,更适配大部分企业的精细化工作场景。工作流中不仅包含AI能力,还需包含各类多模态编辑器用于支持人机协作。由于人类专家的介入,知识库处于实时更新的状态。

HITL Agent的优势也可以用质量管理领域的PDCA(Plan-Do-Check-Act/Adjust)来理解。AI Agent可以执行Plan (计划)和Do(执行),而Check(校对)是缺失的,这也意味着无法进行Adjust(优化)。但HITL Agent则可以完成PDCA闭环,质量得到保证的同时,也让智能体的进化成为可能。

HITL Agent是通往AI Agent的必经之路

从实现「AI does all」的愿景来看,通用人工智能(AGI)的发展仍处于萌芽阶段,但在智能体框架的指导下,AI产品将在企业级应用中发挥越来越大作用。

当下,更加切实可行的方式是在重复性高、规则性强的业务场景中部署AI Agent,在精细化的办公场景中融入人机协作的HITL Agent,通过人类专家的知识反馈不断调优,让AI在特定业务场景下变得更“聪明”,也更“懂“企业。

即便在未来几年里,大语言模型没有大规模的性能提升,但依靠科学的智能体应用框架,持续积累的优质数据,依然能够帮助企业实现显著的生产力提升、陪伴式的降本增效和持续性的劳动力升级,从而为企业带来真正意义上的「智能进化」。


参考文献

[1]Matt Schlicht.The Complete Beginners Guide To Autonomous Agents

[2]陈昱志Yeutz.AIGC时代下的GUI与LUI该何去何从

以“斯坦福小镇”项目和复旦NLP实验室联合米哈游共同发表的LLM-based Agents论文问世为标志,Agent(智能体)概念日益受到市场关注。

下一代OS、原始AGI、生产力工具……随着大模型能力提升、Infra层日益完善,产业界、学术界、投资界都给予了Agent高度关注,并将其视为下一个AI前沿领域。与此同时,Agent也为企业的数字化变革带来了无限想象的空间。

面对市面上日益增加的Agent产品,企业应该如何科学地选择,让AI真正地落地,与实际业务场景深度融合,则需要一套科学的智能体产品分析方法论。

结合前沿理论、AI产品开发经验以及数百家客户访谈,我们为企业提供了一套易懂好用的“智能体分析框架”,从三大维度、六个要素出发,帮助企业全面评估一款智能体产品是否契合自身需求。

在进入分析框架之前,我们先从仿生的角度来理解一下智能体的原理和本质。

智能体原理:感知、决策、行动、记忆

智能体是人类在物理世界的思考行为方式,在数字世界的投射。智能体要展现出“智能”,模拟人类的思考行为方式,以至于代替人类完成一些任务,离不开感知、决策、行动、记忆这四个基本模块


感知:人类通过视觉、听觉、嗅觉、触觉去感知世界。相对应的,智能体用以感知外界环境的方式是对多模态信息的解析技术,包括OCR、多模态图像识别、语音识别等。

决策:人类的大脑皮层承担着思考决策的职责。现阶段,大语言模型在一定程度上模拟了大脑皮层这一角色。也正是这一项突破,让构建智能体成为可能。

行动:人类可以通过行动与外部环境交互,最直观的几种方式包括说话、写作等。在数字世界中,智能体则是通过执行各种工作流来完成每一个行动。

记忆:人类的记忆被存储在海马体中,有长期和短期之分,短期记忆用于存储临时信息,如果被联想、回忆的次数越多,就越深刻,进而变为长期记忆;反之则被遗忘。在智能体中,向量数据库担任了记忆的功能。

总体来讲,智能体就是在模拟人类在物理世界的思考行为方式,并在数字世界形成投射

评估智能体产品的三个维度:

交互入口、工作流、知识库

基于上述对于智能体原理的认知,我们从产品化的角度提出了一套智能体产品评估框架,从交互入口、工作流、知识库三个维度,帮助企业更好地选择符合自身需求的AI产品。

  • 交互入口:LUI、GUI

    作为用户与数字产品交互的首要触点,交互入口的形态很大程度上决定了用户的体验,以及使用产品的方式。

    在Web 2.0时代,互联网产品以图形用户界面(GUI)为主要交互入口,其优势在于图形化的界面清晰直观,相比计算机发展早期以命令行交互(CLI)的方式,更符合人类自然的交互逻辑。但随着产品功能的逐渐增加,GUI也随之变得越来越复杂冗余,拉高了用户的学习成本。

    ChatGPT问世之初,就以对话式的交互页面惊艳了一众使用者。这种界面被称为自然语言交互界面(Language User Interface, LUI),它提供了一种更为直观和人性化的交互方式,可以以对话的形式来使用产品和服务。这种交互方式的背后是大语言模型强大的理解和推理能力。

    OpenAI 推出的GPTs 就是一种Agent产品,它以问答机器人作为交互入口(感知),可以上传文件作为特定知识库(记忆),再通过跟其他APP连接,通过自然语言发送指令,让它以“专家”、“助手”的角色执行一系列任务(思考、行动)。

    如果你有深度使用过GPTs,就不难发现一个问题,GPTs很难执行复杂任务,你可以让它查询资料、订票、发邮件、简单的数据分析,但是很难让它完成更加复杂以及对于精确度要求较高的任务,如:把去年的销售数据整理成特定格式的报表,并结合某市场调研结果用PPT形式呈现出来,作为招标资料。如果我们把这个任务进行拆解,就会发现,我们不仅需要各种工具、还需要跨团队协作和专家经验把关。我们很难想象仅仅通过对话的形式就让AI把这件事情给做了。所以,处理复杂业务场景,人机协同是必然,这也意味着我们需要支持人机交互的GUI。

    我们认为,一款合格的(或者说完整的)智能体产品应该同时具备GUI、LUI两种交互入口,覆盖到企业简单任务和复杂人机协同任务的使用场景。


  • 工作流:全自动工作流、人机协同工作流

    工作流(Workflow)是指为了完成特定的业务目标,按执行顺序去定义的一系列任务,它可以帮助企业提高工作效率,提高任务的一致性和可追溯性——工作流对应智能体的“行动”模块。

    对应LUI和GUI,我们将工作流分为全自动工作流和人机协同工作流两种模式。

    当前市面上大部分AI智能体产品采用的是全自动工作流的方式。全自动工作流很大程度上来自RPA(Robotic Process Automation,机器人流程自动化)技术,触发全自动工作流后,中间无需人工介入,用于执行一些重复性高、规则性强的任务,例如抓取数据、筛选简历、分析报表等。

    然而,在企业实际业务场景中,能被全自动工作流覆盖的场景只占一小部分。更多时候,企业员工在一条工作流中,需要与多种工具、多个同事共同协作,把工具带来的效率提升和人的判断力、专业知识充分结合起来,才能更好地实现业务目标。

    人机协同工作流的重要性正体现在企业内部的这些复杂任务场景中,它能为企业内部的知识专家预留出介入的空间,去和AI进行交互。从而才有机会进一步地让人类的反馈参与到AI智能体的成长、进化之中。


  • 知识库:静态知识库、动态知识库

    知识库对应着智能体的“记忆”模块,它也是能让智能体变得比通用大语言模型更“聪明” “更懂你”的关键。企业将专有知识例如内部培训资料、行业知识、客户案例等存储进知识库,从而使这些知识可以被AI查找、调用,生成更符合企业需求的个性化内容。

    于是,我们将其分为静态知识库和动态知识库两类。

    顾名思义,静态知识库意味着企业将知识上传至知识库后,这些知识不会因为后续的生产活动而自主迭代,只有在人为上传新的内容后知识库才会发生变化。

    而动态知识库则是可以不断自我迭代的。这与人机协同模式息息相关。由于人类专家知识的持续介入,新知识会不断产生,于是知识库在每一次工作流执行完成后都会进行一次更新迭代,用户的行为模式也会在一定程度上影响到知识库的权重。智能体也会表现地越发智能。就好比当你犯错,别人纠正了你,于是你下次不会再犯是一个道理。

智能体的分类:

AI Agent与HITL Agent

为了帮助大家更加直观地利用好上述的分析框架,我们提出了HITL Agent 的概念。我们将智能体产品分为两类:AI Agent和HITL Agent,并给出了对应的公式。

AI Agent:问答机器人+全自动工作流+静态知识库

目前我们所看到的大部分智能体都属于AI Agent。他们往往以问答机器人作为交互入口,通过自然语言触发全自动的工作流,中间没有人工介入,多用于智能客服机器人,或批量信息自动化处理等场景(如简历筛选、报表分析等)。由于人只负责发送指令,并不参与对AI结果的反馈,所以知识库不会实时更新。

这类智能体产品适用于企业内部具体业务模块中存在重复性高、规则性强的业务场景,每个智能体扮演特定角色,例如HR、数据分析师、销售、客服等。

HITL Agent:智能工作台+人机协同工作流+动态知识库

HITL的全称是Human-in-the-loop,HITL Agent也可以称为人机智能体。对AI Agent形成补充。

HITL Agent的特点是人类专家可以在工作流中起到协作、反馈的作用。它以GUI作为交互入口,用于执行较为复杂的工作流,需要人工介入来确保质量,更适配大部分企业的精细化工作场景。工作流中不仅包含AI能力,还需包含各类多模态编辑器用于支持人机协作。由于人类专家的介入,知识库处于实时更新的状态。

HITL Agent的优势也可以用质量管理领域的PDCA(Plan-Do-Check-Act/Adjust)来理解。AI Agent可以执行Plan (计划)和Do(执行),而Check(校对)是缺失的,这也意味着无法进行Adjust(优化)。但HITL Agent则可以完成PDCA闭环,质量得到保证的同时,也让智能体的进化成为可能。

HITL Agent是通往AI Agent的必经之路

从实现「AI does all」的愿景来看,通用人工智能(AGI)的发展仍处于萌芽阶段,但在智能体框架的指导下,AI产品将在企业级应用中发挥越来越大作用。

当下,更加切实可行的方式是在重复性高、规则性强的业务场景中部署AI Agent,在精细化的办公场景中融入人机协作的HITL Agent,通过人类专家的知识反馈不断调优,让AI在特定业务场景下变得更“聪明”,也更“懂“企业。

即便在未来几年里,大语言模型没有大规模的性能提升,但依靠科学的智能体应用框架,持续积累的优质数据,依然能够帮助企业实现显著的生产力提升、陪伴式的降本增效和持续性的劳动力升级,从而为企业带来真正意义上的「智能进化」。


参考文献

[1]Matt Schlicht.The Complete Beginners Guide To Autonomous Agents

[2]陈昱志Yeutz.AIGC时代下的GUI与LUI该何去何从