生成式AI人机协同有哪几种模式? 原创
当今科技的浪潮席卷而来,生成式人工智能(AI)正成为这场数字革命的中坚力量。在这个迅速演进的领域中,我们见证了一个接一个的创新和人机交互方式的变革。人机协同(human-machine synergy)就是将人和机器组成一个团队,集成人类智能和人工智能,促进人机自主交互,协作共赢。人工智能研究的主要驱动力一直是机器与人类认知的协作与竞争,如机器在国际象棋中击败人类或者通过图灵测试,从而证明要么是机器比人类更好,要么是人类在某些领域比计算机做得更好。但是,人工智能总会具有一定的局限性,它不能完全构建人类大脑的功能。
生成式AI的智能革命演化至今,从人机协同呈现了三种模式:
- 嵌入(embedding)模式:某个环节里去调用大模型
- 副驾驶(Copilot)模式:每个环节都可以跟大模型进.行交互
- 智能体(Agent)模式:任务交给大模型,大模型即可自行计划、分解和自动执行,这种模式下,AI充分体现了智能体的互动性、自主性和适应性特征,接近于独立的行动者,而人类则更多地扮演监督者和评估者的角色。
嵌入模式中,人类通过拆解目标引导AI完成任务,突显了人类在决策中的主导作用;副驾驶模式中,人类与AI共同促成了目标的达成;而智能体模式则展现了生成式AI更强的独立性,因为其能够自主理解、拆解、规划和执行任务。
这三种模式中,决策权逐渐由人类转向AI。这一演变揭示了生成式AI与人类协作的不同层次,呈现出由人类主导到与AI共同决策,再到AI自主执行的趋势。以大语言模型为驱动,可自主化完成复杂任务的Agent智能体,必将深度参与到创意构思环节,为解决问题提出自己的想法。
01「 Embedding模式 」
在生成式AI的智能革命中,嵌入模式率先出现在人们生活中。在这一模式下,用户可以在拆解目标后,通过提供一系列提示词或者关键词来明确具体的支线任务,这也成为了AI理解用户意图的关键因素。这种互动机制使得AI能够更准确地捕捉用户需求,并在后续互动中逐步完善细节。整个过程中,模型的生成能力得以充分展现。
以创造性任务为例,当我们要写一篇小说,我们首先需要确定题材,故事方向以及故事框架。这些都是创作过程的基础,基于此才能够继续补充细节。在嵌入模式中,人类作为决策者需要将整体目标拆分为一系列可以逐步完成的任务。在后续与AI的互动中,我们可以逐步输入各个分解出的任务,指导AI按照我们设定的步骤完成创作的不同阶段。例如,我们可以通过提示词来让AI创造主要人物、设定故事大纲,然后逐渐引导AI填充故事细节。在这一过程中,人类作为主导者,通过拆解目标、提供清晰指导,有效地引导AI完成各个任务,最终形成一篇符合我们要求的完整的小说。
总的来说,在嵌入模式下,人类首先设定了目标,然后拆分成具体步骤并且以自然语言与AI交互,逐步引导AI生成我们想要的结果。因此,这一模式的特点主要在于人类主导决策,而AI则充当执行人类命令的工具。
嵌入模式在各个领域都展现了卓越的应用价值,尤其在文学创作、影视编剧、广告创意等领域表现突出。通过与AI的创意合作,用户得以更灵活地打造符合用户个性的创意作品,减少灵感卡顿的情况出现。同时,这一模式的出现也为创作者提供了全新的创作方式。
在设计领域,通过将AI功能(如智能扩图、一键抠图、文字生图等)嵌入到现有软件界面中,能直接提升设计工具的智能化水平,设计师可以在熟悉的环境和流程中调用这些AI功能,无需额外学习新的工具,轻松获得即时的智能支持。这种内嵌策略应该是让AI最快落地应用的方式之一,例如Photoshop Beta、MasterGo Al都通过这种方式快速实现了产品的智能化升级。
但Embedding模式的局限性也是显而易见的,受限于工具现有架构,强大的AI功能多为散点式的存在,无法形成协同效应。因此,Embedding模式更像是现阶段应对生成式AI大潮的过渡方案。
02「 Copilot模式 」
Copilot概念是由微软在2021年引入的,它的主要功能是为开发者在编写代码的过程中提供实时的代码建议。这些建议不仅包括简单的代码补全,还能生成整段的代码,从而极大地提升了开发效率。当AI识别到代码需要补全时,它会分析已有的代码结构,然后列出后续可补全的代码供开发者选择。随后的工作阶段中,人类与AI之间的不断交互变得至关重要。在此之后,AI持续提供建议,而人类则负责根据项目需求来进行选择和调整。这种模式下,AI将全程参与整个工作流程,从提供初始建议、给出框架,一直到协助完成流程的各个阶段。在这种合作伙伴关系中,AI不仅仅是一个工具,更是一个知识丰富的助手。
AI不仅在后续流程中与人类互动生成最终结果,而且在拆分目标时,也能协助人类理清目标构成。尤其是那些对于目标领域不熟悉的人,AI能够帮助他们梳理思路,从而更有效地达成目标。因此,在副驾驶模式下,AI通过对目标任务的分析,构建了解决方案,从而增强了决策的效率,并且在后续的进程中也提供了有力的支持与指导,来确保任务的高质量完成。
副驾驶模式的全面应用为办公工作带来了更为智能、高效的体验。当接收到设计需求的那一刻起,Copilot便能够基于强大的知识库和用户数据,对设计需求进行分析,并给出具体的设计建议(如框架布局、内容元素、颜色搭配等),还可以生成参考方案。
形态上我们可以参考目前较火的AI搜索类产品,Copilot可能会以插件或者悬浮窗口的方式存在,方便设计师随时调用。调起界面后,用户可以输入自己的设计需求,也可以上传相关需求文档,给AI越多背景资料,结果可能越精准可用,接着是选择自己的生成诉求。开始生成后,基于用户勾选的内容依次生成,除了对于设计需求的分析和文档的解析,还可以利用AI的搜索能力,整理主题相关的延伸阅读材料供设计师参考。
在设计分析模块,围绕不同的设计类型生成建议内容,比如我要设计的是一张海报,生成内容就可能会包括标题、版式布局、尺寸、字体、背景等海报设计元素。
Copilot模式对于协同关系最大的改变是,AI不再只是智能化增强的图形处理工具,而是成为与设计师紧密协作的得力助手,助力设计全流程的提质提效。
03「 Agents模式 」
在生成式AI的智能革命中,智能体(Agents)模式是一种更为独立和自主的模式。这种模式可以被理解为能够自主理解人类提出的问题,并基于这种理解来进行问题规划,进而自主决定需要执行哪些复杂任务的智能体。换句话说,当人类设定了目标后,它不仅能够提供关于“任务执行框架”的建议,而且可以自主开始任务执行,无需人类手动分配任务。在这一过程中,人类主要是进行监督和评估最终结果,而不需要在每个步骤中都参与进去。
在智能体模式中,其核心流程可以被总结为三个能力的循环:感知(Perception)、规划(Planning)和行动(Action)。在感知、规划和行动的循环中,智能体能够在不断地与环境的互动中来学习和优化自身的行为。区别于嵌入模式和副驾驶模式,智能体模式具有更强的决策权、独立性和自主性。它强调AI能够自主感知环境,通过感知获取信息,进行规划、拆分任务并自主执行任务。这与嵌入模式中用户主导、AI执行命令,以及副驾驶模式中用户与AI合作完成任务的方式形成鲜明对比。
在设计领域,Agent可以被视为一个个擅长不同设计能力和拥有不同经验知识的虚拟设计师,支持自由选择、组合或删除,同时我们根据需求所需能力,为Agent外挂各种工具,并能将业务专属的知识数据上传供其学习。整个过程很像是为设计需求量身打造一个专属的“AI设计团队”。设计师的角色因此被彻底改变,更多时候只是站在Leader的视角向AI发出设计需求,然后等待方案的呈现,目标设定,任务拆解和分配、生成设计指令、信息收集、方案生成由Agent全权代理并自动完成,AI成为真正意义上的创作主体,设计工作也将进入“3D打印”的时代。对人而言,最重要的不再是创意能力、设计能力,而是审美能力、判断能力和决策能力。
历史经验告诉我们,技术进步推动生产效率提升,进而引发生产组织和社会关系的变革。作为本轮变革的核心驱动力,AI技术具备极强的前瞻性。信息架构和框架布局受到用户任务流程的影响,而任务流程源自产品/平台所支持的功能范围,功能范围一方面基于用户需求,另一方面则取决于技术的能力范围。
Agent以大语言模型为核心驱动,具有自主感知理解、规划决策、记忆反思和使用工具的能力,能够自动化完成复杂任务,Agent可以将大模型的能力发挥到极致,成为类人甚至超人的智能实体。Agent技术框架通常被认为由四个关键模块组成:
记忆模块 负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。
规划模块 包括事前规划和事后反思两个阶段。在事前规划阶段,这里涉及对未来行动的预测和决策制定;在事后反思阶段,智能体具有检查和改进制定计划中不足之处的能力。
工具模块 利用外部资源或工具来执行任务。学习调用外部API来获取模型权重中缺失的额外信息,以此来补足自身弱项。
行动模块 实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动。
擅长不同设计领域的大语言模型相当于各种设计角色,如何来管理这些角色很重要,所需功能可能会有角色市场(官方或个人)、角色雇佣(临时或买断)、设计能力升级迭代、角色的组合搭配等。
记忆模块大概需要两个空间,一个空间存储的是每次行动后自动沉淀的知识和经验,另一个空间则支持我们将业务材料、个性化数据,甚至是既往设计作品等内容进行上传,经过学习快速成为Agent能力的一部分。
在规划阶段,相关分工的安排以及行动步骤的拆解应避免黑箱操作,将任务链可视化有助于提升设计师的掌控感,这对处理好协同关系很重要。
工具方面,可能会通过工具库或工具商城的形式聚合呈现,支持各类设计工具和工具包的选配选购,还要具备增、删、改、查等基础的工具管理服务。
最后是行动,我认为有两个需要考虑的点,一是方案展示要结合文、图、视频内容的特点,不能简单的用一种框架去展示不同的设计作品,二是图形处理功能以什么形式与agent对接。
智能体模式在自动驾驶、机器人控制、游戏设计等领域有着广泛的应用。在自动驾驶中,车辆可以通过感知道路、规划路径并执行行驶,实现智能驾驶的目的。在机器人控制中,智能体模式赋予机器人更强的自主决策能力,使其能够适应不同的任务环境,例如厨房做饭等。
「 最后 」
总而言之,生成式AI正在深刻变革着各个行业。嵌入模式需要用户通过对目标的深入理解来拆解目标并设定框架,然后将拆解后的任务给AI,让其协助完成任务。它更强调了人类在决策和指导中的主导地位。对于副驾驶模式而言,用户与AI作为合作伙伴,共同参与工作流程,决策权逐渐开始向AI倾斜。而智能体模式展现了更高的独立性和自主性,其能够自主理解问题、拆解问题、规划决策并执行任务,人类更偏向监督和最终的评估。
在这三种协作模式的演化中,AI参与决策的权重逐渐增加,呈现出了渐进式的发展。随着AI技术的广泛应用,未来我们不再需要使用各种不同的应用程序来完成不同的任务。相反,只需用日常用语告诉手机或电脑想要完成什么任务,它们就能够处理我们的请求。在不远的将来,每个上网的人都将能够拥有一个由人工智能驱动的个人助理,也就是“AI Agent”。智能体或将彻底改变用户使用计算机的方式,期间可能还有很长的路要走。但,智能体的时代或许正在来到。
图片及论文参考资料:
https://www.leadbank.com.cn/newsinfo/6615399.html?templateId=1376870
https://zhuanlan.zhihu.com/p/659386520
https://support.microsoft.com/zh-cn/copilot-powerpoint
本文转载自公众号数字化助推器 作者:天涯咫尺TGH