生成式人工智能的未来可能依赖于企业使用的每个应用程序的更小的语言模型,这些模型既灵活又可定制,也更安全。
随着组织继续采用生成式人工智能(GenAI)工具和平台,并探索它们如何创造效率和提高员工生产力,他们也在努力应对这项技术的高成本和复杂性。
生成式人工智能和人工智能的基础是语言模型、算法和神经网络,它们为OpenAI公司的ChatGPT和谷歌的Bard等聊天机器人提供动力。目前最流行和广泛使用的模型被称为大型语言模型(LLM)。
大型语言模型(LLM)的规模可能很大。该技术与大量不同的信息库联系在一起,模型包含数十亿(有时甚至是数万亿)个参数(或变量),这些参数(或变量)可能使它们既不准确,也不适合领域任务或垂直行业使用。
小型语言模型(slm)得到了迅速的发展,有些人甚至认为它已经成为主流的企业技术。slm被设计为能够很好地执行较简单的任务;对于资源有限的组织来说,它们更容易访问和使用;他们天生更安全,因为他们生活在一个完全自我管理的环境中;它们可以针对特定领域和数据安全进行微调;而且比型语言模型(LLM)更便宜。
IDC人工智能研究小组副总裁Ritu Jyoti表示,小型语言模型(slm)非常适合那些希望构建可在本地设备上运行的应用程序(而不是在云端)的组织。Jyoti说。“在任务不需要大量推理或需要快速响应的情况下。”
与其相反,大型语言模型(LLM)更适合那些需要协调复杂任务的应用,这些任务涉及高级推理、数据分析和更好地理解场景。
小型语言模型(slm)可以使用开源人工智能框架从零开始构建,这意味着组织可以为任何目的创建高度可定制的人工智能工具,而无需获得许可,它可以研究系统如何工作并检查其组件,它可以为任何目的修改系统,包括改变其输出。
开源提供了更多的自由和定制
人工智能原型开发商NewtupleTechnologies公司首席执行官DhirajNambiar表示,小型语言模型(slm)的采用率正在增长,因为它们可以进行微调或定制训练,并且在狭窄的任务范围内表现出色,有时可以与大型llm相媲美。”
例如,他说,现在有一些小型语言模型(slm)在光学字符识别(OCR)类型的任务和文本到SQL的任务上做得“很好”。Nambiar说,“一些开源软件显示出与型语言模型(LLM)相当的性能。”
事实上,目前最流行的型语言模型(slm)都是开源的,IDC的Jyoti指出。它们包括:
- meta的Llama3
- 微软的Phi-3
- 谷歌的杰玛
- mitralAI的Mixtral8x7B
- 苹果的OpenELM
最流行的非开源slm(专有的,不能免费供公众使用)包括:
- DeepSeekAI的编码器
- 微软的Phi-2
- 微软的Orca-2
Jyoti说:“这些模型通常在特定组织中使用,或者作为商业服务的一部分提供,在提供高级功能的同时保持对其分发和使用的控制。”
人工智能模型从输入推断出它将产生的输出,例如预测、内容、建议或可以影响物理或虚拟环境的决策。不同的人工智能系统在部署后的自主性和适应性水平各不相同。
用最简单的术语来说,小型语言模型(SLM)是轻量级的生成式人工智能模型。管理咨询和软件开发公司Version1人工智能实验室的高级技术研究员罗斯RosemaryThomas表示,这里的“小”指的是模型神经网络的大小、参数的数量和用于训练的数据量。她说,虽然一些小型语言模型(SLM)实现可能需要大量的计算和内存资源,但有几个可以在单个GPU上运行,并且有超过50亿个参数。
Thomas在最近的一篇文章中指出,其中包括谷歌双子座纳米,微软的Orca-2-7b和Orca-2-13b,Meta的Llama-2–13b等。
Thomas表示,由于对更高效模型的需求以及对模型的训练和设置速度的需求,小型语言模型(slm)的采用正在增长。她说:“由于计算资源、训练时间和特定应用需求等实际考虑,小型语言模型(slm)越来越受欢迎。在过去的几年里,小型语言模型(slm)变得越来越重要,特别是在可持续性和效率至关重要的情况下。”
与llm相比,最关键的区别在于规模。较大的模型在来自不同来源的大量数据上进行训练,使它们能够捕获广泛的语言模式,而小型语言模型(slm)更紧凑,并且在较小的(通常是专有的)上进行训练。数据集。这允许更快的训练和推理时间。
大型语言模型(LLM)还需要更多的计算资源和更长的训练时间。Thomas说:“这使得小型语言模型(slm)成为资源有限或需要快速实现的应用程序的更实用的选择。”
Thomas表示,尽管型语言模型(LLM)在内容生成、语言翻译和理解复杂查询等任务上表现出色,但如果进行了正确的微调,小型模型也可以达到类似的性能。
她说,“小型语言模型(slm)对于特定领域的任务特别有效,因为它们的尺寸更小,推理时间更快。”
建造还是购买?
考虑使用开源框架从零开始构建自己的人工智能模型的组织应该明白,调整现有模型既昂贵又耗时,Nambiar说。“构建自己的人工智能模型有很多方法,从从头开始构建到对现有开源模型进行微调;前者需要精心设置GPU、TPU,需要访问大量数据,还需要大量的专业知识。所需的软件和硬件堆栈是可用的,然而,主要的障碍将是剩余的组件。
我强烈建议,对于特定领域的用例,最好‘微调’现有的小型语言模型(slm)或LLM,而不是从头开始构建一个。现在有许多开源小型语言模型(slm)可用,其中许多都有非常允许的许可证。这是目前构建自己的模型的方法。这广泛适用于所有变压器型号。”
红帽公司高级副总裁兼首席营收官AndrewBrown,说,这不应该是一个孤注一掷的SLM战略。首先,训练一个单一的通用AI模型需要大量的资源。
他说,“一些最大的型号可能需要大约10,000个gpu,而这些型号可能已经过时了。事实上,研究表明,到2026年,训练人工智能的成本将相当于美国的GDP,即22万亿美元。一般的首席信息官没有美国GDP水平的IT预算,也没有成千上万的闲置GPU。那么,答案是什么?由开源创新驱动的专业化、小型人工智能模型。”
根据Nambiar的说法,比较不同人工智能提供商的成本面临的一大挑战是使用不同的术语进行定价——OpenAI使用令牌,谷歌使用字符,Cohere使用“代”、“分类”和“总结单位”的组合。Nambiar的公司为商业自动化构建人工智能。
Nambiar确定了“每1000个代币的价格”来评估不同的价格。
为业务目的微调LLM意味着组织依赖AI提供商来托管基础设施。Nambiar说,企业应该根据基础设施和人力资源来规划一个两到四个月的项目。Nambiar说,成本通常起价在5万美元以上。
微调小型语言模型(slm)通常会更昂贵,因为如果一个组织托管开源模型,它将需要启动基础设施(GPU和/或TPU服务)以及在微调和人工成本上花费精力。他说,“假设它会比大型语言模型(LLM)更贵。”
干净的数据带来可靠的结果
无论是构建自己的SLM还是使用基于云的小型语言模型(slm),数据质量对于准确性至关重要。与大型语言模型(LLM)一样,小模特仍然可能成为幻觉的受害者;当人工智能模型产生错误或误导性信息时,通常是由于有缺陷的训练数据或算法。但是,它们可以更容易地进行调整,并且更有可能更深入地了解组织的专有数据。
与大型语言模型(LLM)一样,检索增强生成(RAG)技术可以通过定制模型来减少幻觉的可能性,从而使响应变得更加准确。
同时,由于它们的规模和数据集较小,与大型语言模型(LLM)相比,小型语言模型(slm)不太可能捕获更广泛的语言模式,这可能会降低它们的有效性。虽然小型语言模型(slm)可以针对特定任务进行微调,但llm往往擅长于更复杂、定义不太明确的查询,因为它们可以从中提取大量数据。
Thomas说:“简而言之,小型语言模型(slm)为特定领域和任务提供了更高效、更经济的替代方案,特别是在微调以充分发挥其潜力的情况下,而大型语言模型(LLM)仍然是广泛应用的强大模型。”
Digital.ai公司北美地区首席技术官AdamKentosh,表示,小型语言模型(slm)对于清理数据和微调数据存储非常重要,以获得更好的性能、可持续性、降低业务风险和偏见。
根据Kentosh的说法,人工智能计划已经陷入了“幻灭的低谷”,这是可以通过解决数据质量问题来避免的。
到2028年,由于成本、复杂性和部署中的技术债务,超过50%的从头开始构建大型语言模型(LLM)的企业将放弃他们的努力。
Kentosh说:“我们继续面对现有客户的最大挑战之一是数据源的多样化,甚至在软件开发的共同领域也是如此。例如,大多数公司拥有两个或更多的敏捷规划解决方案。此外,在发布软件方面几乎没有一致性。这使得数据预处理变得非常重要,这是许多公司历来不擅长的事情。”
根据Nambiar的说法,为微调模型获得精心策划的、特定于领域的数据并不是一项微不足道的任务。他说,“变压器模型需要一种特定类型的快速响应对数据,而这种数据很难获得。”
Nambiar说,一旦一个组织决定对自己的小型语言模型(slm)进行微调,它就必须不断投资,以保持来自最先进模型的基准。随着每一个新的大型语言模型(LLM)模型的发布,推理能力的标准都在提高,因此,如果你要创建自己的微调小型语言模型(slm),也必须提高这个模型的推理能力,否则你的模型就没有用例了。”
Brown,表示,开源人工智能模型现在并不罕见,今年早些时候Meta等行业巨头都在倡导其Llama模型开源的重要性。他说:“这对组织来说是个好消息,因为这些开源模型提供了很多好处,比如防止供应商锁定,允许广泛的合作伙伴生态系统,性能的可承受性等等。但不幸的是,如果你没有数据科学家来处理这个模型,这些都不重要。”
大多数组织最多只能雇佣少数数据科学家,无论是由于合格人才的稀缺,还是由于雇佣他们的成本。Brown说,“这在有效训练和调整模型方面造成了瓶颈。”
转向混合部署?
Brown指出,首席信息官们长期以来一直在远离单一技术——从21世纪初从UNIX向Linux的转变开始。他认为人工智能正处于类似的转折点,并认为类似于混合云的混合战略对部署人工智能模型最有利。虽然大型的,有些不固定的大型语言模型(LLM)是当今的焦点,但未来的IT环境是50%的应用程序和50%的小型语言模型(slm)。
Brown说,“数据无处不在,无论是内部部署、云端还是边缘。因此,数据本质上是混合的,因为人工智能需要在你的数据所在的地方运行,它也必须是混合的。事实上,我们经常告诉客户和合作伙伴:人工智能是最终的混合工作负载。”
他继续说道,“从本质上讲,首席信息官将拥有与应用程序一样多的人工智能模型。这意味着训练需要更快,调优需要加快,成本需要降低。这一挑战的关键在于开源。就像它使计算民主化一样,开源将为人工智能带来民主化。”