现如今,我们站在了大模型技术和产业发展的中场思考阶段。这个阶段的开启源于 ChatGPT 的诞生,它引发了广泛而深入的关注。尽管这种关注对于推动技术和产业的发展起到了至关重要的作用,但同时我们也看到了一系列问题的浮现。这些问题包括成本和价值的问题以及一些根本性的缺陷,例如“幻觉”的问题。这些问题的存在使得我们有必要进行中场思考,以便总结上半场的经验和教训,从而更好地开启下半场。
一、时代背景
1、技术飞速发展
事实上,许多技术的发展和产品的演进背后都有其内在的逻辑,这是时代发展的内在动力。自去年 ChatGPT 于 11 月份发布以来,短短不到两个月的时间内,用户数就突破了近 1 亿,而此前最流行的互联网产品 TikTok 却花了近九个月的时间。可以说,过去的十几个月是一段极其梦幻的时期,对于我们这些从事技术和研发的人员来说,几乎每一天都可能见证一个新的历史时刻,OpenAI 的每一次动态都会引起了我们的高度关注,只因他们的许多技术往往能带来历史性的突破。
通用人工智能技术发展的日新月异且速度的明显加快也说明了,在还没有来得及消化旧技术的时候,新的概念就已经出现。并且在过去的十多个月里,我们基本上一直处于这样的状态,似乎唯一不变的就是变化本身,技术的变化和加速已经成为了一种常态。
2、发展带来了复杂性和风险
技术的快速变化已经成为常态,导致我们所处的世界日益复杂。以汽车为例,其构造需要大量的零件和元器件,而智能车需要运行几亿行代码,显示出的系统复杂性已经超出了我们的认知能力。因此,我们现在正处在一个复杂系统的时代,面临的挑战也越来越复杂。
社会发展的不确定性与失控风险的增加,促使我们开始思考当下我们整个人类社会的一个共同命题,即应对这种失控的风险的能力,其中强大的认知能力就是关键。
3、大模型才是未来
但是,人类的认知能力有其极限。人类的智能作为一种典型的生物智能,发展速度相对缓慢,而机器的智能发展却迅速无比。因此,历史的发展使我们明白,我们需要考虑发展人机协作的认知,让机器协助我们理解这个复杂的世界,以应对日益增加的失控风险。
机器认知能力是随着算力和数据的增长而增长的,在算力和数据的加持下,其能力不断提升,以此来应对这个世界的复杂性,大模型的出现成为了一种必然。
现今已经涌现了各式各样的大模型,并且能力还在增长,我们见证着通用人工智能的到来和进步,包括语言模型,多模态模型和具身模型等方方面面。
通用人工智能(AGI)已然形成了一场新的革命。与以往如蒸汽革命、电力革命不同,通用人工智能创造的是智力本身,是渗透到我们整个社会每一根毛细血管的能力,这一场革命必将影响广泛且深远。
4、大模型给我们带来了什么?
那么大模型究竟给我们带来了什么呢?
- 海量的参数化知识容器
语言模型以参数化形式编码了数据中蕴含的知识,并且已基本上证实大模型是一个跨学科的全才,跨学科的知识容器。 - 人类认知能力的引擎
大模型更是能力的提供者,尤其是人类认知能力。今天的大模型能够很好地胜任常识与概念的理解任务,还产生了一定的自我判断和价值判断。 - 日益成为自治智能体的大脑
大模型很有可能会成为一个自治智能体的大脑,即 Agent。未来的它除了认知外,还能够成为一个决策的 Agent,能够胜任各种复杂任务,以协助的角色融入到未来的千行百业当中。 - 消灭自然语言鸿沟
人机交互形式在未来会统一为自然语言,传统人机交互是人“迁就”机器而采用繁琐复杂的交互接口,大模型时代将人机交互范式统一为了自然语言形式。 - 消灭专业语言鸿沟
在以往,专业工作需要特定的形式语言(Python 等)与机器交互,而今天机器“理解”专业语言不再存在障碍,专业性的工作门槛将极大地降低。
二、定位与认知
1、大模型的各种能力
对于大模型的探索我们还需要更清晰地定位与认知。对于各个行业来说,相较于“通识”的全才,企业更需要的是“专识”的专家,所以在重视通用大模型的同时,垂类的领域大模型也是值得关注的。实际上通识专业认知能力是建立在通识能力基础之上的,“通用”是理解“领域”的前提,要“炼制”通用的大语言模型,一般来讲训练语料越是广泛而多样,通用大模型能力越强。
另外,大模型的“举一反三”能力也同样值得我们关注。以往在任务训练中,如果我们需要模型具备某一项能力,则需要去特定地训练这类任务,且任务与任务之间是不具备组合能力的。而大模型却能够将任意两种学科、技能进行组合创新,将两个不相关的能力进行组合使用。
大模型还具有强大地评估评价的能力。以往的模型训练都需要依赖标注数据来最终评估模型的好坏,而现在 GPT4 等优秀的大模型,经过适当的引导之后,也可以具备人类水平,甚至是专家水平的评估能力。
大模型对复杂任务的规划、执行和拆解能力也同样值得重视。对于类似数据分析、统计假设检验这种复杂的任务,即使是丰富研究经验的人员来完成,也需要半天时间才能输出报告,而只要 Agent 的能力足够强,大模型可以在数十秒内完成整个流程。
更值得关注的是,通用大模型在跨越专业的知识方面存在巨大优势。人类在大部分情况下,可能会成为某个行业的专家,但很难成为全才,这使得我们的平均通识水平并不高。而大模型极大地提升了人类在各个领域的通识水平,这使得大模型能够帮助人类完成跨系统、跨领域的专业工作,让跨系统边界的复杂系统认知成为可能。
2、大模型对于 To B 市场
在企业端市场也就是我们常说的 To B 市场,也将会因为 ChatGPT 的到来而迎来一场全新变革。与传统的汽车制造业类比,大模型对于 To B 市场的首要意义在智能引擎升级。To B 产品是建立在智能引擎基础之上的,传统数据驱动、知识驱动或者二者联合驱动的智能引擎,将会被全新的大模型引擎所重塑。
然而正如前文所述,大模型在领域复杂决策应用场景上仍然有明显的短板与不足,尚达不到领域专家的能力。因此,我认为未来仍是以大模型为代表的数据驱动与领域知识图谱为代表的知识驱动相结合的双引擎驱动模式。由大模型实现领域专家的直觉决策,由知识图谱实现领域专家的逻辑决策,唯有两者结合才能复现领域专家解决问题的能力。如果与传统的操作系统类比,大模型可以作为 To B 产品的控制器。作为具有一定的领域通识能力的大模型,有能力胜任企业级智能系统的控制器,协调传统的 IT 系统(比如数据库、知识库、CRM、ERP、BI 系统等)。
然而在上述产品研发中,我们仍然面临许多具有挑战性的问题。
- 大模型需要与现有企业流程无缝融合,需要与现有工具或接口有效衔接。
- 大模型需要与员工、专家有效协同。
- 大模型需要领域知识注入,以解决幻觉问题。
3、大模型需要具备的能力
研究千行百业的智能化应用,究其本质,是一个复杂的认知决策任务。在实际应用场景中,我们需要的是机器的复杂决策能力,复杂决策是领域应用的根本特点,这绝不是开放式闲聊所能解决的问题。复杂决策涉及到许多能力,如丰富的应用知识、复杂的决策逻辑、宏观态势的研判能力、综合任务的拆解能力、精细严密的规划能力、复杂约束的取舍能力、未知事物的预见能力和不确定场景的推断能力。
4、大模型的问题
而在大模型中,尤为重要的也是最迫切需要解决的,是“幻觉”问题,也就是大模型容易胡编乱造一些虚假事实。这个问题在模型本身是难以解决的,ChatGPT 在很多领域可以“创造答案”,但当用户寻求正确答案时,ChatGPT 也有可能给出有误导的回答。GPT4 也无法完全解决幻觉问题,增大模型规模和训练量只能一定程度缓解。即使接入搜索引擎,NewBing 仍会不按材料进行回答,这和翻译、摘要中的观察一致。
最后,就是大模型缺乏领域“忠实度”的问题。大模型是从通用领域练出来的,它往往倾向于利用它在底座模型的通用领域学到的知识来回答问题,而不忠实于你给的行业的知识,不忠于你给的行业的文本。
三、场景与应用
1、深挖场景
到了 ToB 行业,究竟我们该如何去发展大模型?这需要我们深挖,去挖掘我们的场景和应用。
首先大模型应当是百花齐放的,过去大家目睹了 OpenAI 在通用大模型的成功,随后便一起挤在了通用大模型的赛道中,竞争尤为激烈。事实上在许多行业或领域中,垂类大模型的应用更值得我们去挖掘与研究。从通用大模型,到行业/领域大模型、场景大模型、科学/专业大模型,在很多垂直行业,需要有很多专业的科学大模型才能够胜任。
其中我尤为关注的是场景的智能化,我认为场景大模型将会是未来最可能率先落地的应用。因为通用大模型已经有很强的通识能力,通识能力再加上简单的岗位培训就能够胜任的工作,是最容易落地的,比如 HR、客服或窗口办事员等。这一类恰恰是我们可以快速形成有效的解决方案获得效果的场景。标准化、规范化、服务化的工作对机器来说是容易实现的。
另外关注的还有专业大模型,除了常常被提起的气象大模型,医学大模型之外。行业内还有更多的场景和复杂形态的数据能够被大模型使用和解决,如代码代码、基因、图、表等,且不同类型、结构的数据都可以使用预训练的方式进行处理。
2、产品形态
而谈到场景应用落地的形态,具备决策能力的 Agent 将会是绕不开的话题。大模型已经成为推动自主智能体发展的重要引擎。由于 LLM 拥有惊人的计算以及各种复杂的认知能力,能够处理和理解庞大的数据集、更好地感知和理解世界。因而,大模型日益成为自治智能体的大脑。它们的“大脑”特质使得它们能够处理多样性的信息源,包括文本、图像、声音等,从而更全面地理解其周围环境。
自治智能体能够利用 LLM 负责的能力独立地执行任务、做出决策,并在没有人为干预的情况下进行学习和改进。这种自主性使得它们能够在特定任务中表现出惊人的灵活性和适应性,从而更好地满足各种需求。
以 Travel Agent 为例,Agent 在决策过程中需要具备许多能力,如环境认知、场景认知、工具使用、运筹规划、协同合作、意图理解、约束规划、个性适配等能力。
另外一个重要的产品形态,则是统一智能的企业的信息门户。现在企业中往往有着多个信息系统,如 ERP、OA、代码库、知识管理平台等等,未来大模型将能够利用它的通识能力、任务分解与规划能力,协调传统的 IT 系统(数据库、知识库等)进行协同工作。
最后一个值得大家关注的在于数据要素。数据要成为资产、进行流通和交易,会涉及到复杂的数据治理问题,对于数据库中错误的、违反常识的数据,过去那种由人力或是规则来进行处理的方式是难以胜任庞大的数据工作的。大模型的通识理解、常识理解有助于它进行数据治理、数据评估、数据分级等工作,使它成为数据价值变现的重要方式。
四、成本与价值
1、大模型的成本
过去我们已经发现,不计成本的研发大模型,肯定是走不通的。而大模型能为我们节约许多成本。首先是人力的成本,过去传统特征工程中,要靠专家来进行特征标注的工作,现在大模型以简单的提示词就可以办到。
但大模型本身也带来了巨大的成本。大模型成本=训练成本+应用成本,需要引起重视,仍然不可忽视。GPT4 规模的大模型单次炼制成本接近 6300 万美金,绝大部分的企业都没办法承受这份花销。另外,高频应用有可能带来难以接受的应用成本,随着使用需求的增加,调用API的花费也是不容小觑的。
2、降本方法
要想控制好成本,一定要靠大小模型协同,这是降低应用成本的有效方法。对于绝大多数简单例子(80-20 法则),传统的 BERT 模型就可解决,其应用成本可忽略不计。假若遇到需要一定常识理解、复杂推理的样本,才需要交由大模型完成。并且,小模型的作用绝不仅仅是降低成本,大模型与小模型可以互相补充,各取所长。在可解释性、可控性、推理速度上,小模型都是优于大模型的。
降低成本的另外一个思路是提升大模型与知识图谱的协同能力。在过去十年里,很多行业已经建立起了很多规模和质量都不错的知识图谱。大模型可以将其利用起来,主要有三个思路:
- 提示阶段,用知识来指引来让它提示得更加专业。
- 生成阶段,用知识增强的检索来提升它生成的效果。
- 事后验证,用知识库的知识来验证它的生成结果,避免“幻觉”的出现。
大模型的小型化也是降低大模型应用成本的有效思路之一,是大模型普及应用的重要趋势之一。借助人类大脑功能分区理论对大模型的功能集约性开展研究是根本,小型化能够帮助大模型在手机端等设备上的部署。
大模型的时效性也十分需要重视,时效性是发展大模型的核心竞争力之一。如金融数据这类场景,如果做不到实时数据的获取与分析,其金融的决策是没有意义的。保证时效性的隐性方法包括知识编辑和持续学习,显性方法包括记忆增强、检索增强和接入互联网增强。
五、对策与路径
- 建立训练数据的分类体系
摆脱“炼丹”的工作流程,思考训练过程背后不同的数据和参数对应的模型能力。掌握大模型炼制工艺的关键参数及其对大模型效果的评价体系是模型训练的关键。清楚什么样的数据决定怎样的能力?建立数据特性与模型能力之间的因果关系尤为关键。
- 人类认知发展理论对大模型炼制的借鉴意义
大模型的发展是能被人类认知发展理论指引的,儿童的认知能力存在一个持续发展的过程,对大模型炼制存在指导意义。大模型在短短几个月内就发展出了 Attention(注意力)、Desire(欲望)、Belief(信念)。基于 Theory of Mind (TOM, 认知发展理论),将人类与大模型的认知发展进行对比研究是将大模型从炼金术发展为科学的重要思路之一。
- 行业大模型训练数据的选择
在进行行业大模型微调的时候,行业数据的选择也是一个重要的问题。过于通识的数据显然没有价值,而过于细节的数据也没有必要。其中只有行业特有的、反常识的、高覆盖的、形式多样的数据值得被选择和训练。
- 基础模型 + 优质指令 = 技术价值
基础模型能力决定了系统的天花板,而指令质量决定了系统的底线。指令数据可以让大模型学习解决复杂的任务。优质的指令数据,可以放大模型的效果;相反,劣质的指令数据则会损害大模型的效果。底座模型和指令数据是相辅相成的。重底座、轻指令,重指令、轻底座,均不可取。
- 提升中文大模型的多模态、跨模态认知能力
大模型是认知文字、图片、表格、声音等多种模态的统一模型,它可以完成以往难以完成的各种跨模态的开放式联合推理。着重研究大模型在多模态上的能力能够为未来大模型的应用带来很多实用的功能。
- 面向领域的评测—以日志运维为例
以运维数据为例,运维领域日志数据稀缺,公开数据集任务简单,大模型缺乏对日志语言自身特点的考虑,而它构建的前提是有效的评测与评估。因此对于特定领域,开发对应的 benchmark 作为评估标准尤为重要。
- 面向知识的评测
建立大模型在专业知识上的能力,目前也出现了诸如 DomMa,Xiezhi(獬豸)-Benchmark 等专业知识的评估标准,用于从诊断与应用两个角度,对大模型展开基于认知心理学、多学科、多维度的评测。我们要尽快建立面向解决问题能力的评测体系,要引导大模型从现在的“高分低能”发展到“高分高能”。
- 面向能力的评测——以复杂指令理解为例
除了知识以外,大模型解决问题的能力也尤为重要。国产的很多大模型在各种榜单中都取得不错的成绩,但在解决实际复杂问题时往往乏力。往往真正的用户指令都是复杂的,里面混杂了很多任务、形式和约束,理解并解决复杂指令是国产大模型更应该重视的方面。
- 智能的整体性评测-智商测试
我们还需要重视综合能力的评测,比如智商。目前大模型各种能力的评测难以从整体上反映大模型智力水平,因此我们需要使用常识和反常识的智力游戏进行智商测试。
- 智能的整体性评测-情商测试
除了智商之外,情商也同样重要。目前大模型各种能力的评测难以从整体上反映大模型的情感能力,使用共情对话进行情商测试。学会理解用户指令背后的情绪,提供更优质的使用体验,才有机会体现产品的商业价值。
- 重视并加强大模型训练数据的治理
从整体上来看,大模型的工作 80% 以上都是数据的工作,因此,出于安全和效用的考虑,做好数据治理非常关键。
- 注重领域特异的自监督任务设计
在训练过程中,任务的设计也是值得重视的。面向领域定制预训练任务能够提升模型的理解能力,以旅行搜索为例,在解决路线规划任务中,参考文本的 next token 预测任务进行设计显然不符合POI数据的结构,将任务切换为 nearbyPOI 预测更能提升模型的理解能力。
- 注重领域知识增强预训练
预训练模型缺乏领域知识,通过领域知识能够提升模型表现。在训练过程中要想把领域知识给注入进去,可以通过自监督的任务设计,将领域知识中例如词汇表、术语表达等知识的习得设计为学习任务。
- 进一步提升大模型的认知能力
大模型的各项能力都需要在未来进行进一步的提升,因此要持续提升大模型在解决领域实际问题时所需的认知能力,如长文本处理、长短期记忆、复杂数量推理等等。
- 提升大模型的约束规划能力
大模型要想在特定的场景中发挥作用,其约束规划能力尤为重要。让大模型能够理解指令中给到的约束条件,规避被约束的行为并产生合理的规划是大模型 Agent 落地的关键。
- 提升大模型数量推理能力和增强量纲与数值认知
今天的大模型在数值理解和数量理解方面仍然容易出错。如果这个问题不解决,对数据量级敏感的行业例如金融、医疗等行业,是没办法使用它的。当下学界、业界都在研发中通过加入数据库、知识库等办法来缓解大模型短缺的数量理解能力带来的问题。
- 提升大模型的否定判定与生成能力
大模型的逻辑能力同样也是欠缺的,它对否定、与、或等逻辑判断与生成的能力是有待提升的。现有研究表明大模型在上下文丰富的场景,具备一定否定判断与生成能力,但在上下文稀缺、任务复杂时能力仍然有限。
- 根据专家反馈灵敏调整大模型生成结果
大模型能否根据专家反馈及时调整结果是行业落地的关键问题之一。在运行环境中,让大模型根据反馈来调整生成结果,杜绝大模型“死鸭子嘴硬”(不肯悔改)以及“墙头草”(无主见)两类极端错误。
- 基于大模型的行业智能化演进路径
大模型的演变过程还很漫长,目前我们已经走过了通识的阶段,到了第二阶段,也就是训练专业大模型,未来还需要探索如何使用工具,从实践中得到反馈,最终才能够成为真正的行业专家。
六、总结
在大模型这个行业里面,我们需要合理定位、正确认识,场景多元,积极开辟新赛道,重视大模型的成本与价值,促进大模型与千行百业的深度融合。大模型不能只是炼金术,要成为科学才能持续发展;大模型背后的“人”学研究是关键。