一篇文章掌握智能体（Agent ) 产品的分析框架

以“斯坦福小镇”项目和复旦NLP实验室联合米哈游共同发表的LLM-based Agents论文问世为标志，Agent（智能体）概念日益受到市场关注。

下一代OS、原始AGI、生产力工具……随着大模型能力提升、Infra层日益完善，产业界、学术界、投资界都给予了Agent高度关注，并将其视为下一个AI前沿领域。与此同时，Agent也为企业的数字化变革带来了无限想象的空间。

面对市面上日益增加的Agent产品，企业应该如何科学地选择，让AI真正地落地，与实际业务场景深度融合，则需要一套科学的智能体产品分析方法论。

结合前沿理论、AI产品开发经验以及数百家客户访谈，我们为企业提供了一套易懂好用的“智能体分析框架”，从三大维度、六个要素出发，帮助企业全面评估一款智能体产品是否契合自身需求。

在进入分析框架之前，我们先从仿生的角度来理解一下智能体的原理和本质。

智能体原理：感知、决策、行动、记忆

智能体是人类在物理世界的思考行为方式，在数字世界的投射。智能体要展现出“智能”，模拟人类的思考行为方式，以至于代替人类完成一些任务，离不开感知、决策、行动、记忆这四个基本模块。

感知：人类通过视觉、听觉、嗅觉、触觉去感知世界。相对应的，智能体用以感知外界环境的方式是对多模态信息的解析技术，包括OCR、多模态图像识别、语音识别等。

决策：人类的大脑皮层承担着思考决策的职责。现阶段，大语言模型在一定程度上模拟了大脑皮层这一角色。也正是这一项突破，让构建智能体成为可能。

行动：人类可以通过行动与外部环境交互，最直观的几种方式包括说话、写作等。在数字世界中，智能体则是通过执行各种工作流来完成每一个行动。

记忆：人类的记忆被存储在海马体中，有长期和短期之分，短期记忆用于存储临时信息，如果被联想、回忆的次数越多，就越深刻，进而变为长期记忆；反之则被遗忘。在智能体中，向量数据库担任了记忆的功能。

总体来讲，智能体就是在模拟人类在物理世界的思考行为方式，并在数字世界形成投射。

评估智能体产品的三个维度：

交互入口、工作流、知识库

基于上述对于智能体原理的认知，我们从产品化的角度提出了一套智能体产品评估框架，从交互入口、工作流、知识库三个维度，帮助企业更好地选择符合自身需求的AI产品。

交互入口：LUI、GUI
作为用户与数字产品交互的首要触点，交互入口的形态很大程度上决定了用户的体验，以及使用产品的方式。
在Web 2.0时代，互联网产品以图形用户界面（GUI）为主要交互入口，其优势在于图形化的界面清晰直观，相比计算机发展早期以命令行交互（CLI）的方式，更符合人类自然的交互逻辑。但随着产品功能的逐渐增加，GUI也随之变得越来越复杂冗余，拉高了用户的学习成本。
ChatGPT问世之初，就以对话式的交互页面惊艳了一众使用者。这种界面被称为自然语言交互界面（Language User Interface, LUI），它提供了一种更为直观和人性化的交互方式，可以以对话的形式来使用产品和服务。这种交互方式的背后是大语言模型强大的理解和推理能力。
OpenAI 推出的GPTs 就是一种Agent产品，它以问答机器人作为交互入口（感知），可以上传文件作为特定知识库（记忆），再通过跟其他APP连接，通过自然语言发送指令，让它以“专家”、“助手”的角色执行一系列任务（思考、行动）。
如果你有深度使用过GPTs，就不难发现一个问题，GPTs很难执行复杂任务，你可以让它查询资料、订票、发邮件、简单的数据分析，但是很难让它完成更加复杂以及对于精确度要求较高的任务，如：把去年的销售数据整理成特定格式的报表，并结合某市场调研结果用PPT形式呈现出来，作为招标资料。如果我们把这个任务进行拆解，就会发现，我们不仅需要各种工具、还需要跨团队协作和专家经验把关。我们很难想象仅仅通过对话的形式就让AI把这件事情给做了。所以，处理复杂业务场景，人机协同是必然，这也意味着我们需要支持人机交互的GUI。
我们认为，一款合格的（或者说完整的）智能体产品应该同时具备GUI、LUI两种交互入口，覆盖到企业简单任务和复杂人机协同任务的使用场景。
工作流：全自动工作流、人机协同工作流
工作流（Workflow）是指为了完成特定的业务目标，按执行顺序去定义的一系列任务，它可以帮助企业提高工作效率，提高任务的一致性和可追溯性——工作流对应智能体的“行动”模块。
对应LUI和GUI，我们将工作流分为全自动工作流和人机协同工作流两种模式。
当前市面上大部分AI智能体产品采用的是全自动工作流的方式。全自动工作流很大程度上来自RPA（Robotic Process Automation，机器人流程自动化）技术，触发全自动工作流后，中间无需人工介入，用于执行一些重复性高、规则性强的任务，例如抓取数据、筛选简历、分析报表等。
然而，在企业实际业务场景中，能被全自动工作流覆盖的场景只占一小部分。更多时候，企业员工在一条工作流中，需要与多种工具、多个同事共同协作，把工具带来的效率提升和人的判断力、专业知识充分结合起来，才能更好地实现业务目标。
人机协同工作流的重要性正体现在企业内部的这些复杂任务场景中，它能为企业内部的知识专家预留出介入的空间，去和AI进行交互。从而才有机会进一步地让人类的反馈参与到AI智能体的成长、进化之中。
知识库：静态知识库、动态知识库
知识库对应着智能体的“记忆”模块，它也是能让智能体变得比通用大语言模型更“聪明” “更懂你”的关键。企业将专有知识例如内部培训资料、行业知识、客户案例等存储进知识库，从而使这些知识可以被AI查找、调用，生成更符合企业需求的个性化内容。
于是，我们将其分为静态知识库和动态知识库两类。
顾名思义，静态知识库意味着企业将知识上传至知识库后，这些知识不会因为后续的生产活动而自主迭代，只有在人为上传新的内容后知识库才会发生变化。
而动态知识库则是可以不断自我迭代的。这与人机协同模式息息相关。由于人类专家知识的持续介入，新知识会不断产生，于是知识库在每一次工作流执行完成后都会进行一次更新迭代，用户的行为模式也会在一定程度上影响到知识库的权重。智能体也会表现地越发智能。就好比当你犯错，别人纠正了你，于是你下次不会再犯是一个道理。

智能体的分类：

AI Agent与HITL Agent

为了帮助大家更加直观地利用好上述的分析框架，我们提出了HITL Agent 的概念。我们将智能体产品分为两类：AI Agent和HITL Agent，并给出了对应的公式。

AI Agent：问答机器人+全自动工作流+静态知识库

目前我们所看到的大部分智能体都属于AI Agent。他们往往以问答机器人作为交互入口，通过自然语言触发全自动的工作流，中间没有人工介入，多用于智能客服机器人，或批量信息自动化处理等场景（如简历筛选、报表分析等）。由于人只负责发送指令，并不参与对AI结果的反馈，所以知识库不会实时更新。

这类智能体产品适用于企业内部具体业务模块中存在重复性高、规则性强的业务场景，每个智能体扮演特定角色，例如HR、数据分析师、销售、客服等。

HITL Agent：智能工作台+人机协同工作流+动态知识库

HITL的全称是Human-in-the-loop，HITL Agent也可以称为人机智能体。对AI Agent形成补充。

HITL Agent的特点是人类专家可以在工作流中起到协作、反馈的作用。它以GUI作为交互入口，用于执行较为复杂的工作流，需要人工介入来确保质量，更适配大部分企业的精细化工作场景。工作流中不仅包含AI能力，还需包含各类多模态编辑器用于支持人机协作。由于人类专家的介入，知识库处于实时更新的状态。

HITL Agent的优势也可以用质量管理领域的PDCA（Plan-Do-Check-Act/Adjust）来理解。AI Agent可以执行Plan （计划）和Do（执行），而Check（校对）是缺失的，这也意味着无法进行Adjust（优化）。但HITL Agent则可以完成PDCA闭环，质量得到保证的同时，也让智能体的进化成为可能。

HITL Agent是通往AI Agent的必经之路

从实现「AI does all」的愿景来看，通用人工智能（AGI）的发展仍处于萌芽阶段，但在智能体框架的指导下，AI产品将在企业级应用中发挥越来越大作用。

当下，更加切实可行的方式是在重复性高、规则性强的业务场景中部署AI Agent，在精细化的办公场景中融入人机协作的HITL Agent，通过人类专家的知识反馈不断调优，让AI在特定业务场景下变得更“聪明”，也更“懂“企业。

即便在未来几年里，大语言模型没有大规模的性能提升，但依靠科学的智能体应用框架，持续积累的优质数据，依然能够帮助企业实现显著的生产力提升、陪伴式的降本增效和持续性的劳动力升级，从而为企业带来真正意义上的「智能进化」。

参考文献

[1]Matt Schlicht.The Complete Beginners Guide To Autonomous Agents

[2]陈昱志Yeutz.AIGC时代下的GUI与LUI该何去何从

以“斯坦福小镇”项目和复旦NLP实验室联合米哈游共同发表的LLM-based Agents论文问世为标志，Agent（智能体）概念日益受到市场关注。

下一代OS、原始AGI、生产力工具……随着大模型能力提升、Infra层日益完善，产业界、学术界、投资界都给予了Agent高度关注，并将其视为下一个AI前沿领域。与此同时，Agent也为企业的数字化变革带来了无限想象的空间。

面对市面上日益增加的Agent产品，企业应该如何科学地选择，让AI真正地落地，与实际业务场景深度融合，则需要一套科学的智能体产品分析方法论。

结合前沿理论、AI产品开发经验以及数百家客户访谈，我们为企业提供了一套易懂好用的“智能体分析框架”，从三大维度、六个要素出发，帮助企业全面评估一款智能体产品是否契合自身需求。

在进入分析框架之前，我们先从仿生的角度来理解一下智能体的原理和本质。

智能体原理：感知、决策、行动、记忆

智能体是人类在物理世界的思考行为方式，在数字世界的投射。智能体要展现出“智能”，模拟人类的思考行为方式，以至于代替人类完成一些任务，离不开感知、决策、行动、记忆这四个基本模块。

感知：人类通过视觉、听觉、嗅觉、触觉去感知世界。相对应的，智能体用以感知外界环境的方式是对多模态信息的解析技术，包括OCR、多模态图像识别、语音识别等。

决策：人类的大脑皮层承担着思考决策的职责。现阶段，大语言模型在一定程度上模拟了大脑皮层这一角色。也正是这一项突破，让构建智能体成为可能。

行动：人类可以通过行动与外部环境交互，最直观的几种方式包括说话、写作等。在数字世界中，智能体则是通过执行各种工作流来完成每一个行动。

记忆：人类的记忆被存储在海马体中，有长期和短期之分，短期记忆用于存储临时信息，如果被联想、回忆的次数越多，就越深刻，进而变为长期记忆；反之则被遗忘。在智能体中，向量数据库担任了记忆的功能。

总体来讲，智能体就是在模拟人类在物理世界的思考行为方式，并在数字世界形成投射。

评估智能体产品的三个维度：

交互入口、工作流、知识库

基于上述对于智能体原理的认知，我们从产品化的角度提出了一套智能体产品评估框架，从交互入口、工作流、知识库三个维度，帮助企业更好地选择符合自身需求的AI产品。

交互入口：LUI、GUI
作为用户与数字产品交互的首要触点，交互入口的形态很大程度上决定了用户的体验，以及使用产品的方式。
在Web 2.0时代，互联网产品以图形用户界面（GUI）为主要交互入口，其优势在于图形化的界面清晰直观，相比计算机发展早期以命令行交互（CLI）的方式，更符合人类自然的交互逻辑。但随着产品功能的逐渐增加，GUI也随之变得越来越复杂冗余，拉高了用户的学习成本。
ChatGPT问世之初，就以对话式的交互页面惊艳了一众使用者。这种界面被称为自然语言交互界面（Language User Interface, LUI），它提供了一种更为直观和人性化的交互方式，可以以对话的形式来使用产品和服务。这种交互方式的背后是大语言模型强大的理解和推理能力。
OpenAI 推出的GPTs 就是一种Agent产品，它以问答机器人作为交互入口（感知），可以上传文件作为特定知识库（记忆），再通过跟其他APP连接，通过自然语言发送指令，让它以“专家”、“助手”的角色执行一系列任务（思考、行动）。
如果你有深度使用过GPTs，就不难发现一个问题，GPTs很难执行复杂任务，你可以让它查询资料、订票、发邮件、简单的数据分析，但是很难让它完成更加复杂以及对于精确度要求较高的任务，如：把去年的销售数据整理成特定格式的报表，并结合某市场调研结果用PPT形式呈现出来，作为招标资料。如果我们把这个任务进行拆解，就会发现，我们不仅需要各种工具、还需要跨团队协作和专家经验把关。我们很难想象仅仅通过对话的形式就让AI把这件事情给做了。所以，处理复杂业务场景，人机协同是必然，这也意味着我们需要支持人机交互的GUI。
我们认为，一款合格的（或者说完整的）智能体产品应该同时具备GUI、LUI两种交互入口，覆盖到企业简单任务和复杂人机协同任务的使用场景。
工作流：全自动工作流、人机协同工作流
工作流（Workflow）是指为了完成特定的业务目标，按执行顺序去定义的一系列任务，它可以帮助企业提高工作效率，提高任务的一致性和可追溯性——工作流对应智能体的“行动”模块。
对应LUI和GUI，我们将工作流分为全自动工作流和人机协同工作流两种模式。
当前市面上大部分AI智能体产品采用的是全自动工作流的方式。全自动工作流很大程度上来自RPA（Robotic Process Automation，机器人流程自动化）技术，触发全自动工作流后，中间无需人工介入，用于执行一些重复性高、规则性强的任务，例如抓取数据、筛选简历、分析报表等。
然而，在企业实际业务场景中，能被全自动工作流覆盖的场景只占一小部分。更多时候，企业员工在一条工作流中，需要与多种工具、多个同事共同协作，把工具带来的效率提升和人的判断力、专业知识充分结合起来，才能更好地实现业务目标。
人机协同工作流的重要性正体现在企业内部的这些复杂任务场景中，它能为企业内部的知识专家预留出介入的空间，去和AI进行交互。从而才有机会进一步地让人类的反馈参与到AI智能体的成长、进化之中。
知识库：静态知识库、动态知识库
知识库对应着智能体的“记忆”模块，它也是能让智能体变得比通用大语言模型更“聪明” “更懂你”的关键。企业将专有知识例如内部培训资料、行业知识、客户案例等存储进知识库，从而使这些知识可以被AI查找、调用，生成更符合企业需求的个性化内容。
于是，我们将其分为静态知识库和动态知识库两类。
顾名思义，静态知识库意味着企业将知识上传至知识库后，这些知识不会因为后续的生产活动而自主迭代，只有在人为上传新的内容后知识库才会发生变化。
而动态知识库则是可以不断自我迭代的。这与人机协同模式息息相关。由于人类专家知识的持续介入，新知识会不断产生，于是知识库在每一次工作流执行完成后都会进行一次更新迭代，用户的行为模式也会在一定程度上影响到知识库的权重。智能体也会表现地越发智能。就好比当你犯错，别人纠正了你，于是你下次不会再犯是一个道理。

智能体的分类：

AI Agent与HITL Agent

为了帮助大家更加直观地利用好上述的分析框架，我们提出了HITL Agent 的概念。我们将智能体产品分为两类：AI Agent和HITL Agent，并给出了对应的公式。

AI Agent：问答机器人+全自动工作流+静态知识库

目前我们所看到的大部分智能体都属于AI Agent。他们往往以问答机器人作为交互入口，通过自然语言触发全自动的工作流，中间没有人工介入，多用于智能客服机器人，或批量信息自动化处理等场景（如简历筛选、报表分析等）。由于人只负责发送指令，并不参与对AI结果的反馈，所以知识库不会实时更新。

这类智能体产品适用于企业内部具体业务模块中存在重复性高、规则性强的业务场景，每个智能体扮演特定角色，例如HR、数据分析师、销售、客服等。

HITL Agent：智能工作台+人机协同工作流+动态知识库

HITL的全称是Human-in-the-loop，HITL Agent也可以称为人机智能体。对AI Agent形成补充。

HITL Agent的特点是人类专家可以在工作流中起到协作、反馈的作用。它以GUI作为交互入口，用于执行较为复杂的工作流，需要人工介入来确保质量，更适配大部分企业的精细化工作场景。工作流中不仅包含AI能力，还需包含各类多模态编辑器用于支持人机协作。由于人类专家的介入，知识库处于实时更新的状态。

HITL Agent的优势也可以用质量管理领域的PDCA（Plan-Do-Check-Act/Adjust）来理解。AI Agent可以执行Plan （计划）和Do（执行），而Check（校对）是缺失的，这也意味着无法进行Adjust（优化）。但HITL Agent则可以完成PDCA闭环，质量得到保证的同时，也让智能体的进化成为可能。

HITL Agent是通往AI Agent的必经之路

从实现「AI does all」的愿景来看，通用人工智能（AGI）的发展仍处于萌芽阶段，但在智能体框架的指导下，AI产品将在企业级应用中发挥越来越大作用。

当下，更加切实可行的方式是在重复性高、规则性强的业务场景中部署AI Agent，在精细化的办公场景中融入人机协作的HITL Agent，通过人类专家的知识反馈不断调优，让AI在特定业务场景下变得更“聪明”，也更“懂“企业。

即便在未来几年里，大语言模型没有大规模的性能提升，但依靠科学的智能体应用框架，持续积累的优质数据，依然能够帮助企业实现显著的生产力提升、陪伴式的降本增效和持续性的劳动力升级，从而为企业带来真正意义上的「智能进化」。

参考文献

[1]Matt Schlicht.The Complete Beginners Guide To Autonomous Agents

[2]陈昱志Yeutz.AIGC时代下的GUI与LUI该何去何从

以“斯坦福小镇”项目和复旦NLP实验室联合米哈游共同发表的LLM-based Agents论文问世为标志，Agent（智能体）概念日益受到市场关注。

下一代OS、原始AGI、生产力工具……随着大模型能力提升、Infra层日益完善，产业界、学术界、投资界都给予了Agent高度关注，并将其视为下一个AI前沿领域。与此同时，Agent也为企业的数字化变革带来了无限想象的空间。

面对市面上日益增加的Agent产品，企业应该如何科学地选择，让AI真正地落地，与实际业务场景深度融合，则需要一套科学的智能体产品分析方法论。

结合前沿理论、AI产品开发经验以及数百家客户访谈，我们为企业提供了一套易懂好用的“智能体分析框架”，从三大维度、六个要素出发，帮助企业全面评估一款智能体产品是否契合自身需求。

在进入分析框架之前，我们先从仿生的角度来理解一下智能体的原理和本质。

智能体原理：感知、决策、行动、记忆

智能体是人类在物理世界的思考行为方式，在数字世界的投射。智能体要展现出“智能”，模拟人类的思考行为方式，以至于代替人类完成一些任务，离不开感知、决策、行动、记忆这四个基本模块。

感知：人类通过视觉、听觉、嗅觉、触觉去感知世界。相对应的，智能体用以感知外界环境的方式是对多模态信息的解析技术，包括OCR、多模态图像识别、语音识别等。

决策：人类的大脑皮层承担着思考决策的职责。现阶段，大语言模型在一定程度上模拟了大脑皮层这一角色。也正是这一项突破，让构建智能体成为可能。

行动：人类可以通过行动与外部环境交互，最直观的几种方式包括说话、写作等。在数字世界中，智能体则是通过执行各种工作流来完成每一个行动。

记忆：人类的记忆被存储在海马体中，有长期和短期之分，短期记忆用于存储临时信息，如果被联想、回忆的次数越多，就越深刻，进而变为长期记忆；反之则被遗忘。在智能体中，向量数据库担任了记忆的功能。

总体来讲，智能体就是在模拟人类在物理世界的思考行为方式，并在数字世界形成投射。

评估智能体产品的三个维度：

交互入口、工作流、知识库

基于上述对于智能体原理的认知，我们从产品化的角度提出了一套智能体产品评估框架，从交互入口、工作流、知识库三个维度，帮助企业更好地选择符合自身需求的AI产品。

交互入口：LUI、GUI
作为用户与数字产品交互的首要触点，交互入口的形态很大程度上决定了用户的体验，以及使用产品的方式。
在Web 2.0时代，互联网产品以图形用户界面（GUI）为主要交互入口，其优势在于图形化的界面清晰直观，相比计算机发展早期以命令行交互（CLI）的方式，更符合人类自然的交互逻辑。但随着产品功能的逐渐增加，GUI也随之变得越来越复杂冗余，拉高了用户的学习成本。
ChatGPT问世之初，就以对话式的交互页面惊艳了一众使用者。这种界面被称为自然语言交互界面（Language User Interface, LUI），它提供了一种更为直观和人性化的交互方式，可以以对话的形式来使用产品和服务。这种交互方式的背后是大语言模型强大的理解和推理能力。
OpenAI 推出的GPTs 就是一种Agent产品，它以问答机器人作为交互入口（感知），可以上传文件作为特定知识库（记忆），再通过跟其他APP连接，通过自然语言发送指令，让它以“专家”、“助手”的角色执行一系列任务（思考、行动）。
如果你有深度使用过GPTs，就不难发现一个问题，GPTs很难执行复杂任务，你可以让它查询资料、订票、发邮件、简单的数据分析，但是很难让它完成更加复杂以及对于精确度要求较高的任务，如：把去年的销售数据整理成特定格式的报表，并结合某市场调研结果用PPT形式呈现出来，作为招标资料。如果我们把这个任务进行拆解，就会发现，我们不仅需要各种工具、还需要跨团队协作和专家经验把关。我们很难想象仅仅通过对话的形式就让AI把这件事情给做了。所以，处理复杂业务场景，人机协同是必然，这也意味着我们需要支持人机交互的GUI。
我们认为，一款合格的（或者说完整的）智能体产品应该同时具备GUI、LUI两种交互入口，覆盖到企业简单任务和复杂人机协同任务的使用场景。
工作流：全自动工作流、人机协同工作流
工作流（Workflow）是指为了完成特定的业务目标，按执行顺序去定义的一系列任务，它可以帮助企业提高工作效率，提高任务的一致性和可追溯性——工作流对应智能体的“行动”模块。
对应LUI和GUI，我们将工作流分为全自动工作流和人机协同工作流两种模式。
当前市面上大部分AI智能体产品采用的是全自动工作流的方式。全自动工作流很大程度上来自RPA（Robotic Process Automation，机器人流程自动化）技术，触发全自动工作流后，中间无需人工介入，用于执行一些重复性高、规则性强的任务，例如抓取数据、筛选简历、分析报表等。
然而，在企业实际业务场景中，能被全自动工作流覆盖的场景只占一小部分。更多时候，企业员工在一条工作流中，需要与多种工具、多个同事共同协作，把工具带来的效率提升和人的判断力、专业知识充分结合起来，才能更好地实现业务目标。
人机协同工作流的重要性正体现在企业内部的这些复杂任务场景中，它能为企业内部的知识专家预留出介入的空间，去和AI进行交互。从而才有机会进一步地让人类的反馈参与到AI智能体的成长、进化之中。
知识库：静态知识库、动态知识库
知识库对应着智能体的“记忆”模块，它也是能让智能体变得比通用大语言模型更“聪明” “更懂你”的关键。企业将专有知识例如内部培训资料、行业知识、客户案例等存储进知识库，从而使这些知识可以被AI查找、调用，生成更符合企业需求的个性化内容。
于是，我们将其分为静态知识库和动态知识库两类。
顾名思义，静态知识库意味着企业将知识上传至知识库后，这些知识不会因为后续的生产活动而自主迭代，只有在人为上传新的内容后知识库才会发生变化。
而动态知识库则是可以不断自我迭代的。这与人机协同模式息息相关。由于人类专家知识的持续介入，新知识会不断产生，于是知识库在每一次工作流执行完成后都会进行一次更新迭代，用户的行为模式也会在一定程度上影响到知识库的权重。智能体也会表现地越发智能。就好比当你犯错，别人纠正了你，于是你下次不会再犯是一个道理。

智能体的分类：

AI Agent与HITL Agent

为了帮助大家更加直观地利用好上述的分析框架，我们提出了HITL Agent 的概念。我们将智能体产品分为两类：AI Agent和HITL Agent，并给出了对应的公式。

AI Agent：问答机器人+全自动工作流+静态知识库

目前我们所看到的大部分智能体都属于AI Agent。他们往往以问答机器人作为交互入口，通过自然语言触发全自动的工作流，中间没有人工介入，多用于智能客服机器人，或批量信息自动化处理等场景（如简历筛选、报表分析等）。由于人只负责发送指令，并不参与对AI结果的反馈，所以知识库不会实时更新。

这类智能体产品适用于企业内部具体业务模块中存在重复性高、规则性强的业务场景，每个智能体扮演特定角色，例如HR、数据分析师、销售、客服等。

HITL Agent：智能工作台+人机协同工作流+动态知识库

HITL的全称是Human-in-the-loop，HITL Agent也可以称为人机智能体。对AI Agent形成补充。

HITL Agent的特点是人类专家可以在工作流中起到协作、反馈的作用。它以GUI作为交互入口，用于执行较为复杂的工作流，需要人工介入来确保质量，更适配大部分企业的精细化工作场景。工作流中不仅包含AI能力，还需包含各类多模态编辑器用于支持人机协作。由于人类专家的介入，知识库处于实时更新的状态。

HITL Agent的优势也可以用质量管理领域的PDCA（Plan-Do-Check-Act/Adjust）来理解。AI Agent可以执行Plan （计划）和Do（执行），而Check（校对）是缺失的，这也意味着无法进行Adjust（优化）。但HITL Agent则可以完成PDCA闭环，质量得到保证的同时，也让智能体的进化成为可能。

HITL Agent是通往AI Agent的必经之路

从实现「AI does all」的愿景来看，通用人工智能（AGI）的发展仍处于萌芽阶段，但在智能体框架的指导下，AI产品将在企业级应用中发挥越来越大作用。

当下，更加切实可行的方式是在重复性高、规则性强的业务场景中部署AI Agent，在精细化的办公场景中融入人机协作的HITL Agent，通过人类专家的知识反馈不断调优，让AI在特定业务场景下变得更“聪明”，也更“懂“企业。

即便在未来几年里，大语言模型没有大规模的性能提升，但依靠科学的智能体应用框架，持续积累的优质数据，依然能够帮助企业实现显著的生产力提升、陪伴式的降本增效和持续性的劳动力升级，从而为企业带来真正意义上的「智能进化」。

参考文献

[1]Matt Schlicht.The Complete Beginners Guide To Autonomous Agents

[2]陈昱志Yeutz.AIGC时代下的GUI与LUI该何去何从