部署自己的大型语言模型的七种方法

人工智能
随着GenAI的迅猛发展,大型语言模型(LLM)已成为企业提升竞争力的关键。

从零开始构建一个新的大型语言模型(LLM)是一种选择,但对于许多公司来说,成本可能高得难以承受。幸运的是,还有其他几种部署定制LLM的方法,这些方法更快、更容易,而且最重要的是,更便宜。

GenAI是历史上发展最快的新技术。它正在改变世界,根据9月发布的美国3000多名在职成年人的实时人口调查,四分之一的人在上一周至少使用过一次GenAI进行工作,近11%的人每天都在使用。

因此,与互联网相比,这项新技术的采用速度大约快了一倍。在S&P Global Market Intelligence代表Weka发布的一份最近报告中,88%的受访企业使用GenAI,24%的企业将其作为工作流程中的集成能力。

更具体地说,LLM是一种专注于文本和代码而不是图像或音频的GenAI,尽管有些LLM已经开始整合不同的模态。当前企业中最受欢迎的LLM有ChatGPT和其他OpenAI GPT模型、Anthropic的Claude、Google的Gemini、Meta的Llama,以及由Meta和Google的DeepMind前员工创建的开源项目Mistral。

随着势头不断增强,以及行业压力要求更直接地应用GenAI,我们研究了公司当前在部署LLM时面临的七种不同程度的复杂性,以及他们为确保竞争优势而愿意付出的努力。

引入聊天机器人

聊天机器人是公司在工作中开始使用GenAI的最简单方式。对于风险最低的使用场景,如AI驱动的互联网搜索或公共文档总结,有免费的公共选项可供选择。这些聊天机器人也有企业版,供应商承诺保证所有对话的安全,不会将其用于训练AI。

根据Netskope Threat Labs 7月的一份报告,96%的企业使用GenAI聊天机器人,一年前这一比例为74%。在企业中,ChatGPT是最受欢迎的通用GenAI聊天机器人平台,使用率为80%。其次是Microsoft Copilot,使用率为67%,Google Gemini的使用率为51%。

此外,企业软件供应商越来越多地在其平台中嵌入GenAI功能。例如,Grammarly和Salesforce都具有GenAI功能。大多数主要的企业软件供应商要么已经推出了一些GenAI功能,要么已将其纳入路线图。

“当然,今年以及未来两年,你能归因于GenAI的大部分价值创造,将体现在你的搜索引擎、应用程序和工具中的副驾驶或助手功能上,”全球咨询公司SSA & Company应用解决方案负责人Nick Kramer表示。

在其评估中,Gartner预测,到2026年,超过80%的企业软件供应商将具备GenAI功能,而3月时这一比例还不到5%。

应用程序编程接口

下一个最常见的GenAI部署策略是在企业平台中添加应用程序编程接口(API)。例如,如果员工使用某个应用程序来跟踪会议,那么可以使用API自动生成会议记录的摘要。Gartner表示,到2026年,超过30%的API需求增长将来自GenAI。

“你可以通过基于使用量的定价模型访问大型科技公司创建的商用LLM的API,”Kearney数字和分析实践合伙人Bharath Thota表示。“许多云提供商让人们能够轻松访问这些LLM。”

他表示,对于像总结报告这样的任务,可以直接使用LLM,而无需检索增强生成(RAG)嵌入或微调;只需使用提示本身,但这取决于需要解决的业务问题。这是一种低风险、低成本的方式,可以在不产生大量开销的情况下为企业系统添加GenAI功能。这也是公司学习这些API的工作原理以及如何创建有效提示的机会。

根据OpenAI的数据,92%的《财富》500强公司正在使用其API,并且由于新模型的发布、成本降低和性能提高,自7月以来其使用量已翻倍。

向量数据库和检索增强生成

对于大多数希望定制其LLM的公司来说,检索增强生成(RAG)是最佳选择。如果有人谈论嵌入或向量数据库,通常指的就是这个。它的工作原理是,如果用户询问有关公司政策或产品的问题,该问题不会立即发送给LLM。相反,它会首先进行处理,以确定用户是否有权访问该信息。如果有访问权限,则会检索所有可能相关的信息,通常是从向量数据库中检索。然后,将问题和相关信息发送给LLM,并嵌入到一个优化后的提示中,该提示还可能指定答案的首选格式和LLM应使用的语气。

向量数据库是一种通过一系列列表来企业信息的方式,每个列表都根据不同的属性进行排序。例如,如果有一个按字母顺序排列的列表,那么你的回复在该顺序中越接近,就越相关。字母顺序列表是一维向量数据库,但它们可以有无限维度,允许你根据与任意数量因素的接近度来搜索相关答案。这使得它们非常适合与LLM结合使用。

“现在,我们正在将所有内容转换为向量数据库,”销售参与平台供应商Salesloft的首席产品和工程官Ellie Fields表示。“是的,它们确实有效。”

她说,这比使用简单文档来为LLM查询提供上下文更有效。该公司主要使用ChromaDB,这是一个开源的向量存储库,其主要用途是为LLM服务。Salesloft使用的另一个向量数据库是PGVector,这是PostgreSQL数据库的向量相似性搜索扩展。

“但我们也使用FAISS和Pinecone进行了一些研究,”Fields表示。FAISS(Facebook AI Similarity Search)是Meta提供的开源库,支持在多媒体文档中进行相似性搜索。

Pinecone是一个专有的基于云的向量数据库,也受到开发者的欢迎,其免费层级支持多达10万个向量。一旦从向量数据库中检索到相关信息并嵌入到提示中,就会将其发送到在Microsoft Azure上私有实例中运行的OpenAI。

“我们让Azure在我们的平台上通过了新子处理器的认证,”Fields表示。“我们总是会让客户知道我们有了新的信息处理器。”

但Salesloft也与Google和IBM合作,并且正在开发一种也使用这些平台的GenAI功能。

“我们肯定会与不同的供应商和不同的模型合作,”她表示。“情况每周都在变化。如果你不看不同的模型,你就会错失良机。”因此,RAG允许企业将专有数据与模型本身分离,从而能够更轻松地随着更好模型的发布而更换模型。此外,向量数据库可以实时更新,无需对模型进行更多的微调或重新训练。

有时不同的模型有不同的API。但更换模型仍然比重新训练更容易。“我们还没有找到一个使用场景,通过微调而不是向量数据库能获得更好的效果,”Fields补充道。“我相信有这样的使用场景,但到目前为止,我们还没有找到一个表现更好的。”

Salesloft推出的LLM的首批应用之一是添加了一个功能,让客户能够为潜在客户生成销售电子邮件。“客户要花很多时间来写这些电子邮件,”Fields表示。“很难开始,而且经常会遇到写作障碍。”所以现在客户可以指定目标人物、价值主张和行动号召,然后他们会收到三封不同的电子邮件草稿,可以根据需要进行个性化定制。

本地运行的开源模型

Constellation Research副总裁兼首席分析师Andy Thurai清楚地看到,开源LLM已经变得非常强大。例如,Meta刚刚发布了具有新视觉功能的几种尺寸的Llama 3.2模型,并表示这些模型已被下载了近3.5亿次,在一年内增长了10倍,并且有6万多个针对特定使用场景进行微调的衍生模型。

根据Chatbot Arena LLM排行榜,Meta的顶级Llama模型在质量上与OpenAI的GPT 4和Anthropic的Claude 3.5 Sonnet相当。

“虽然Llama具有早期优势,但许多其他企业公司也在创建自己的开源LLM版本,”Thurai表示,包括IBM的Granite模型、AWS的Titan,以及Google的几个开源模型。鉴于这种增长趋势,API公司Kong最近对数百名IT专业人士和商业领袖进行了一项调查,结果显示大多数企业直接使用或通过Azure AI使用OpenAI,其次是Google Gemini,而Meta的Llama位居第三。

开源模型有多种尺寸,这对企业来说是一个优势,因为较小的模型更便宜、更快。

“许多企业正在从试验阶段转向部署模式,推理和优化的成本正在成为一个大问题,”图拉伊(Thurai)说。“他们中的很多人在想要部署的规模上遭遇了成本冲击。”

总部位于波士顿的Ikigai Labs也提供了一个平台,允许公司构建定制的大型图形模型,或设计用于处理结构化数据的人工智能模型。但为了让界面更易于使用,Ikigai利用大型语言模型(LLM)为其前端提供支持。例如,该公司使用了拥有70亿参数的Falcon开源LLM,并在自己的环境中为一些客户运行它。

Ikigai的联合创始人兼联合首席执行官德瓦夫拉特·沙阿(Devavrat Shah)表示,为了给LLM提供信息,Ikigai使用了一个也在本地运行的向量数据库。“四年前在麻省理工学院,我和我的一些学生试验了大量的向量数据库,”同时也是麻省理工学院人工智能教授的沙阿说。“我知道它会有用,但没想到这么有用。”

他说,将模型和向量数据库都保持在本地意味着数据不会泄露给第三方。“对于愿意将查询发送给其他人的客户,我们使用OpenAI,”沙阿说。“我们对LLM持开放态度。”

还有普华永道,该公司构建了自己的ChatPwC工具,并且也对LLM持开放态度。“ChatPwC让我们的员工更有能力,”该公司合伙人兼GenAI(gen AI)市场化战略负责人布雷特·格林斯坦(Bret Greenstein)说。例如,它包含预构建的提示和嵌入,以实现诸如生成职位描述等用例。“这是为了使用我们的格式、模板和术语,”他说。“为了创建这个,我们有人力资源、数据和提示专家,我们优化了用例以生成良好、一致的职位发布。现在,最终用户不需要知道如何提示来生成职位描述。”

该工具构建于Microsoft Azure之上,该公司还为其构建了适用于Google Cloud Platform和AWS的版本。“我们必须服务我们的客户,而他们在每一片云上都存在,”格林斯坦说。同样,它也被优化为在后端使用不同的模型,因为这就是客户的需求。“我们让每一个主要模型都运行起来,”他补充说。“Claude、Anthropic、OpenAI、Llama、Falcon——我们应有尽有。”

当然,市场正在快速变化,格林斯坦建议企业对人工智能部署采取无悔政策。

“人们可以做很多事情,比如独立于模型构建自己的数据,并建立治理体系,”他说。然后,当市场发生变化,新的模型和技术出现时,数据和治理结构仍然具有相关性。

微调

管理咨询公司AArete在AWS Bedrock的Claude 2.5 Sonnet上使用基于少量学习的微调。“我们是AWS Bedrock在美国东部-1区域的最大用户,”该公司数字技术服务副总裁普丽雅·伊拉加瓦拉普(Priya Iragavarapu)说。“我们已经能够有效地将我们的GenAI应用投入生产。”

如果AArete使用托管模型并通过API连接到它,就会产生信任问题。“我们担心提示中的数据最终会去向何方,”她说。“我们不想冒这些风险。”

在选择开源模型时,她会查看它之前被下载的次数、社区支持情况以及硬件要求。

“基础模型从去年开始已经变得非常强大,以至于我们不需要担心任务相关性的有效性输出,”她说。“现在唯一的区别是模型在可以接受的token数量和版本控制方面的差异。”

金融界和医疗保健行业的许多公司都在基于自己的附加数据集对LLM进行微调。基础的LLM是在整个互联网上训练的,但通过微调,公司可以创建一个专门针对其业务用例的模型。实现这一目标的常见方法是创建一个问题和答案列表,并基于这些对模型进行微调。事实上,OpenAI从2023年8月开始允许使用问答方法对GPT 3.5模型进行微调,并在11月的DevDay上推出了一套新的微调、定制和检索增强生成(RAG)选项。这对于客户服务和帮助台应用程序特别有用,因为公司可能已经有一个常见问题解答(FAQ)数据库。

普华永道的格林斯坦表示,构建SaaS应用等应用程序的软件公司可能会使用微调。“如果你有一个高度可重复的模式,微调可以降低你的成本,”他说,但在企业部署中,RAG在高达95%的情况下效率更高。

从零开始

很少有公司会从头开始构建自己的LLM。OpenAI的GPT 3有1750亿个参数,在45TB的数据集上进行训练,训练成本为460万美元。据OpenAI首席执行官萨姆·奥特曼(Sam Altman)称,GPT 4的成本超过1亿美元。正是这种规模赋予了LLM处理人类语言的魔力,以及一定程度的常识和遵循指令的能力。

Insight的首席数据官卡姆·塔利亚蒂(Carm Taglienti)说:“虽然你可以创建自己的LLM,但这需要大量的数据和计算能力投资。”“从头开始训练模型需要足够的数据量,才能基于你的数据执行你期望的LLM任务。”

然后,一旦模型完成了基础训练,就需要进行带有人类反馈的强化学习(RLHF)步骤,这是模型以适当方式与用户交互所必需的。

如今,几乎所有的LLM都来自大型超大规模企业或专注于人工智能的初创公司,如OpenAI和Anthropic。即使是有丰富构建自己模型经验的公司也避免创建自己的LLM。例如,Salesloft多年来一直在构建自己的AI和ML模型,包括使用早期技术的通用AI模型,但对于从头开始构建一个全新的、尖端的基础模型却犹豫不决。

“这是一个巨大的计算步骤,至少在现阶段,我看不到我们会这样做,”菲尔德斯(Fields)说。

模型花园

对于最成熟的公司来说,一个通用AI模型是不够的。不同的模型适用于不同类型的用例,并且与它们相关的成本和性能指标也不同。而且不断有新玩家进入这个领域,超越已有的巨头。此外,一些模型可以在本地或托管数据中心运行,这可以降低公司的成本或提供额外的安全性或灵活性。为了利用这些选项,公司创建了精心策划的模型花园,即经过仔细审查的LLM私有集合,包括定制模型或微调模型,并使用路由系统将请求引导到最合适的模型。“还没有多少公司做到这一点,”凯尔尼(Kearney)的托塔(Thota)说。“这很复杂,但我相信这就是未来。”

责任编辑:庞桂玉 来源: 企业网D1Net
相关推荐

2023-11-17 15:44:01

2023-12-27 11:31:27

2024-07-29 08:00:00

2016-09-28 20:05:22

2022-09-30 10:48:12

AR制造业

2023-04-18 15:57:30

2022-10-27 08:09:33

2011-05-30 13:37:46

JSP

2011-12-16 14:45:36

JavaJSP

2021-07-02 10:43:52

IT人才首席信息官人才招聘

2009-10-29 16:32:24

查看Oracle用户的

2017-02-05 10:51:13

2023-06-08 09:00:00

2022-04-18 10:09:52

首席信息官CIO

2022-05-24 14:37:49

React条件渲染

2022-03-22 10:07:08

CIOIT团队首席

2016-10-14 14:30:19

警报警报疲劳安全和运维团队

2021-11-19 10:10:14

手机移动设备网络攻击

2022-05-09 13:35:56

云配置云安全黑客

2022-01-21 10:42:55

IT领导者IT事业职业顾问
点赞
收藏

51CTO技术栈公众号