从零开始构建一个新的大型语言模型(LLM)是一种选择,但对于许多公司来说,成本可能高得难以承受。幸运的是,还有其他几种部署定制LLM的方法,这些方法更快、更容易,而且最重要的是,更便宜。
GenAI是历史上发展最快的新技术。它正在改变世界,根据9月发布的美国3000多名在职成年人的实时人口调查,四分之一的人在上一周至少使用过一次GenAI进行工作,近11%的人每天都在使用。
因此,与互联网相比,这项新技术的采用速度大约快了一倍。在S&P Global Market Intelligence代表Weka发布的一份最近报告中,88%的受访企业使用GenAI,24%的企业将其作为工作流程中的集成能力。
更具体地说,LLM是一种专注于文本和代码而不是图像或音频的GenAI,尽管有些LLM已经开始整合不同的模态。当前企业中最受欢迎的LLM有ChatGPT和其他OpenAI GPT模型、Anthropic的Claude、Google的Gemini、Meta的Llama,以及由Meta和Google的DeepMind前员工创建的开源项目Mistral。
随着势头不断增强,以及行业压力要求更直接地应用GenAI,我们研究了公司当前在部署LLM时面临的七种不同程度的复杂性,以及他们为确保竞争优势而愿意付出的努力。
引入聊天机器人
聊天机器人是公司在工作中开始使用GenAI的最简单方式。对于风险最低的使用场景,如AI驱动的互联网搜索或公共文档总结,有免费的公共选项可供选择。这些聊天机器人也有企业版,供应商承诺保证所有对话的安全,不会将其用于训练AI。
根据Netskope Threat Labs 7月的一份报告,96%的企业使用GenAI聊天机器人,一年前这一比例为74%。在企业中,ChatGPT是最受欢迎的通用GenAI聊天机器人平台,使用率为80%。其次是Microsoft Copilot,使用率为67%,Google Gemini的使用率为51%。
此外,企业软件供应商越来越多地在其平台中嵌入GenAI功能。例如,Grammarly和Salesforce都具有GenAI功能。大多数主要的企业软件供应商要么已经推出了一些GenAI功能,要么已将其纳入路线图。
“当然,今年以及未来两年,你能归因于GenAI的大部分价值创造,将体现在你的搜索引擎、应用程序和工具中的副驾驶或助手功能上,”全球咨询公司SSA & Company应用解决方案负责人Nick Kramer表示。
在其评估中,Gartner预测,到2026年,超过80%的企业软件供应商将具备GenAI功能,而3月时这一比例还不到5%。
应用程序编程接口
下一个最常见的GenAI部署策略是在企业平台中添加应用程序编程接口(API)。例如,如果员工使用某个应用程序来跟踪会议,那么可以使用API自动生成会议记录的摘要。Gartner表示,到2026年,超过30%的API需求增长将来自GenAI。
“你可以通过基于使用量的定价模型访问大型科技公司创建的商用LLM的API,”Kearney数字和分析实践合伙人Bharath Thota表示。“许多云提供商让人们能够轻松访问这些LLM。”
他表示,对于像总结报告这样的任务,可以直接使用LLM,而无需检索增强生成(RAG)嵌入或微调;只需使用提示本身,但这取决于需要解决的业务问题。这是一种低风险、低成本的方式,可以在不产生大量开销的情况下为企业系统添加GenAI功能。这也是公司学习这些API的工作原理以及如何创建有效提示的机会。
根据OpenAI的数据,92%的《财富》500强公司正在使用其API,并且由于新模型的发布、成本降低和性能提高,自7月以来其使用量已翻倍。
向量数据库和检索增强生成
对于大多数希望定制其LLM的公司来说,检索增强生成(RAG)是最佳选择。如果有人谈论嵌入或向量数据库,通常指的就是这个。它的工作原理是,如果用户询问有关公司政策或产品的问题,该问题不会立即发送给LLM。相反,它会首先进行处理,以确定用户是否有权访问该信息。如果有访问权限,则会检索所有可能相关的信息,通常是从向量数据库中检索。然后,将问题和相关信息发送给LLM,并嵌入到一个优化后的提示中,该提示还可能指定答案的首选格式和LLM应使用的语气。
向量数据库是一种通过一系列列表来企业信息的方式,每个列表都根据不同的属性进行排序。例如,如果有一个按字母顺序排列的列表,那么你的回复在该顺序中越接近,就越相关。字母顺序列表是一维向量数据库,但它们可以有无限维度,允许你根据与任意数量因素的接近度来搜索相关答案。这使得它们非常适合与LLM结合使用。
“现在,我们正在将所有内容转换为向量数据库,”销售参与平台供应商Salesloft的首席产品和工程官Ellie Fields表示。“是的,它们确实有效。”
她说,这比使用简单文档来为LLM查询提供上下文更有效。该公司主要使用ChromaDB,这是一个开源的向量存储库,其主要用途是为LLM服务。Salesloft使用的另一个向量数据库是PGVector,这是PostgreSQL数据库的向量相似性搜索扩展。
“但我们也使用FAISS和Pinecone进行了一些研究,”Fields表示。FAISS(Facebook AI Similarity Search)是Meta提供的开源库,支持在多媒体文档中进行相似性搜索。
Pinecone是一个专有的基于云的向量数据库,也受到开发者的欢迎,其免费层级支持多达10万个向量。一旦从向量数据库中检索到相关信息并嵌入到提示中,就会将其发送到在Microsoft Azure上私有实例中运行的OpenAI。
“我们让Azure在我们的平台上通过了新子处理器的认证,”Fields表示。“我们总是会让客户知道我们有了新的信息处理器。”
但Salesloft也与Google和IBM合作,并且正在开发一种也使用这些平台的GenAI功能。
“我们肯定会与不同的供应商和不同的模型合作,”她表示。“情况每周都在变化。如果你不看不同的模型,你就会错失良机。”因此,RAG允许企业将专有数据与模型本身分离,从而能够更轻松地随着更好模型的发布而更换模型。此外,向量数据库可以实时更新,无需对模型进行更多的微调或重新训练。
有时不同的模型有不同的API。但更换模型仍然比重新训练更容易。“我们还没有找到一个使用场景,通过微调而不是向量数据库能获得更好的效果,”Fields补充道。“我相信有这样的使用场景,但到目前为止,我们还没有找到一个表现更好的。”
Salesloft推出的LLM的首批应用之一是添加了一个功能,让客户能够为潜在客户生成销售电子邮件。“客户要花很多时间来写这些电子邮件,”Fields表示。“很难开始,而且经常会遇到写作障碍。”所以现在客户可以指定目标人物、价值主张和行动号召,然后他们会收到三封不同的电子邮件草稿,可以根据需要进行个性化定制。
本地运行的开源模型
Constellation Research副总裁兼首席分析师Andy Thurai清楚地看到,开源LLM已经变得非常强大。例如,Meta刚刚发布了具有新视觉功能的几种尺寸的Llama 3.2模型,并表示这些模型已被下载了近3.5亿次,在一年内增长了10倍,并且有6万多个针对特定使用场景进行微调的衍生模型。
根据Chatbot Arena LLM排行榜,Meta的顶级Llama模型在质量上与OpenAI的GPT 4和Anthropic的Claude 3.5 Sonnet相当。
“虽然Llama具有早期优势,但许多其他企业公司也在创建自己的开源LLM版本,”Thurai表示,包括IBM的Granite模型、AWS的Titan,以及Google的几个开源模型。鉴于这种增长趋势,API公司Kong最近对数百名IT专业人士和商业领袖进行了一项调查,结果显示大多数企业直接使用或通过Azure AI使用OpenAI,其次是Google Gemini,而Meta的Llama位居第三。
开源模型有多种尺寸,这对企业来说是一个优势,因为较小的模型更便宜、更快。
“许多企业正在从试验阶段转向部署模式,推理和优化的成本正在成为一个大问题,”图拉伊(Thurai)说。“他们中的很多人在想要部署的规模上遭遇了成本冲击。”
总部位于波士顿的Ikigai Labs也提供了一个平台,允许公司构建定制的大型图形模型,或设计用于处理结构化数据的人工智能模型。但为了让界面更易于使用,Ikigai利用大型语言模型(LLM)为其前端提供支持。例如,该公司使用了拥有70亿参数的Falcon开源LLM,并在自己的环境中为一些客户运行它。
Ikigai的联合创始人兼联合首席执行官德瓦夫拉特·沙阿(Devavrat Shah)表示,为了给LLM提供信息,Ikigai使用了一个也在本地运行的向量数据库。“四年前在麻省理工学院,我和我的一些学生试验了大量的向量数据库,”同时也是麻省理工学院人工智能教授的沙阿说。“我知道它会有用,但没想到这么有用。”
他说,将模型和向量数据库都保持在本地意味着数据不会泄露给第三方。“对于愿意将查询发送给其他人的客户,我们使用OpenAI,”沙阿说。“我们对LLM持开放态度。”
还有普华永道,该公司构建了自己的ChatPwC工具,并且也对LLM持开放态度。“ChatPwC让我们的员工更有能力,”该公司合伙人兼GenAI(gen AI)市场化战略负责人布雷特·格林斯坦(Bret Greenstein)说。例如,它包含预构建的提示和嵌入,以实现诸如生成职位描述等用例。“这是为了使用我们的格式、模板和术语,”他说。“为了创建这个,我们有人力资源、数据和提示专家,我们优化了用例以生成良好、一致的职位发布。现在,最终用户不需要知道如何提示来生成职位描述。”
该工具构建于Microsoft Azure之上,该公司还为其构建了适用于Google Cloud Platform和AWS的版本。“我们必须服务我们的客户,而他们在每一片云上都存在,”格林斯坦说。同样,它也被优化为在后端使用不同的模型,因为这就是客户的需求。“我们让每一个主要模型都运行起来,”他补充说。“Claude、Anthropic、OpenAI、Llama、Falcon——我们应有尽有。”
当然,市场正在快速变化,格林斯坦建议企业对人工智能部署采取无悔政策。
“人们可以做很多事情,比如独立于模型构建自己的数据,并建立治理体系,”他说。然后,当市场发生变化,新的模型和技术出现时,数据和治理结构仍然具有相关性。
微调
管理咨询公司AArete在AWS Bedrock的Claude 2.5 Sonnet上使用基于少量学习的微调。“我们是AWS Bedrock在美国东部-1区域的最大用户,”该公司数字技术服务副总裁普丽雅·伊拉加瓦拉普(Priya Iragavarapu)说。“我们已经能够有效地将我们的GenAI应用投入生产。”
如果AArete使用托管模型并通过API连接到它,就会产生信任问题。“我们担心提示中的数据最终会去向何方,”她说。“我们不想冒这些风险。”
在选择开源模型时,她会查看它之前被下载的次数、社区支持情况以及硬件要求。
“基础模型从去年开始已经变得非常强大,以至于我们不需要担心任务相关性的有效性输出,”她说。“现在唯一的区别是模型在可以接受的token数量和版本控制方面的差异。”
金融界和医疗保健行业的许多公司都在基于自己的附加数据集对LLM进行微调。基础的LLM是在整个互联网上训练的,但通过微调,公司可以创建一个专门针对其业务用例的模型。实现这一目标的常见方法是创建一个问题和答案列表,并基于这些对模型进行微调。事实上,OpenAI从2023年8月开始允许使用问答方法对GPT 3.5模型进行微调,并在11月的DevDay上推出了一套新的微调、定制和检索增强生成(RAG)选项。这对于客户服务和帮助台应用程序特别有用,因为公司可能已经有一个常见问题解答(FAQ)数据库。
普华永道的格林斯坦表示,构建SaaS应用等应用程序的软件公司可能会使用微调。“如果你有一个高度可重复的模式,微调可以降低你的成本,”他说,但在企业部署中,RAG在高达95%的情况下效率更高。
从零开始
很少有公司会从头开始构建自己的LLM。OpenAI的GPT 3有1750亿个参数,在45TB的数据集上进行训练,训练成本为460万美元。据OpenAI首席执行官萨姆·奥特曼(Sam Altman)称,GPT 4的成本超过1亿美元。正是这种规模赋予了LLM处理人类语言的魔力,以及一定程度的常识和遵循指令的能力。
Insight的首席数据官卡姆·塔利亚蒂(Carm Taglienti)说:“虽然你可以创建自己的LLM,但这需要大量的数据和计算能力投资。”“从头开始训练模型需要足够的数据量,才能基于你的数据执行你期望的LLM任务。”
然后,一旦模型完成了基础训练,就需要进行带有人类反馈的强化学习(RLHF)步骤,这是模型以适当方式与用户交互所必需的。
如今,几乎所有的LLM都来自大型超大规模企业或专注于人工智能的初创公司,如OpenAI和Anthropic。即使是有丰富构建自己模型经验的公司也避免创建自己的LLM。例如,Salesloft多年来一直在构建自己的AI和ML模型,包括使用早期技术的通用AI模型,但对于从头开始构建一个全新的、尖端的基础模型却犹豫不决。
“这是一个巨大的计算步骤,至少在现阶段,我看不到我们会这样做,”菲尔德斯(Fields)说。
模型花园
对于最成熟的公司来说,一个通用AI模型是不够的。不同的模型适用于不同类型的用例,并且与它们相关的成本和性能指标也不同。而且不断有新玩家进入这个领域,超越已有的巨头。此外,一些模型可以在本地或托管数据中心运行,这可以降低公司的成本或提供额外的安全性或灵活性。为了利用这些选项,公司创建了精心策划的模型花园,即经过仔细审查的LLM私有集合,包括定制模型或微调模型,并使用路由系统将请求引导到最合适的模型。“还没有多少公司做到这一点,”凯尔尼(Kearney)的托塔(Thota)说。“这很复杂,但我相信这就是未来。”