如今似乎任何人都可以制作AI模型。即使你没有训练数据或编程技巧,你也可以选择你喜欢的开源模型,对其进行调整,并以新的名字发布。
根据斯坦福大学在4月发布的AI指数报告,2023年发布了149个基础模型,其中三分之二是开源的,而且有大量的变体。Hugging Face目前仅跟踪用于文本生成的LLM就超过80000个,并且幸运的是,它有一个排行榜,可以让你快速根据各种基准对模型进行排序。尽管这些模型落后于大型商业模型,但它们正在迅速改进。
在查看开源GenAI时,排行榜是一个好的起点,EY Americas的GenAI负责人David Guarrera说,特别是Hugging Face在基准测试方面做得很好,他说。
“但是不要低估亲自尝试这些模型的价值,”他说,“因为它们是开源的,很容易做到这一点并进行切换。”他补充道,开源模型和它们的闭源商业替代品之间的性能差距正在缩小。
“开源很棒,”Uber Freight的工程主管Val Marchevsky补充道,“我觉得开源非常有价值。”它们不仅在性能上赶上了专有模型,而且有些提供了闭源模型无法匹敌的透明度,他说。“一些开源模型允许你查看用于推理的内容和不用于推理的内容,”他补充道,“可审核性对于防止幻觉非常重要。”
当然,还有价格优势。“如果你有一个恰好有容量的数据中心,为什么要付钱给别人?”他说。
公司已经非常熟悉使用开源代码。根据Synopsys在2月发布的开源安全和风险分析,96%的所有商业代码库包含开源组件。
由于所有这些经验,公司应该知道如何确保它们使用的是适当许可的代码,如何检查漏洞以及如何保持所有内容的最新状态。然而,一些规则和最佳实践有一些特别的细微差别,公司可能会忽略。以下是最重要的几点。
1. 奇怪的新许可条款
不同开源许可证类型的情况已经足够复杂了。项目是否可以安全用于商业用途,还是只能用于非商业用途?可以修改和分发吗?可以安全地并入专有代码库吗?现在,随着GenAI的出现,有一些新的皱褶。首先,有一些新的许可证类型,只在一个非常宽松的定义下才算开源。
例如,Llama许可证。Llama家族的模型是一些最好的开源LLM之一,但Meta正式将其描述为“一个定制的商业许可证,平衡了对模型的开放访问以及为帮助解决潜在的滥用而制定的责任和保护措施”。
企业被允许商业使用这些模型,开发人员可以在Llama基础模型的基础上创建和分发额外的工作,但它们不能使用Llama输出来改进其他LLM,除非它们本身是Llama的衍生品。而且,如果企业或其附属公司每月有超过700个用户,他们必须申请许可证,Meta可能会也可能不会授予。如果他们使用Llama 3,他们必须在显著位置包含“使用Llama 3构建”的标志。
类似地,Apple刚刚发布了OpenELM,根据“Apple示例代码许可证”,这也是为了这个场合而发明的,仅涵盖版权许可,不包括专利权。
Apple和Meta都没有使用公认的开源许可证,但代码实际上是开放的。Apple实际上不仅发布了代码,还发布了模型权重、训练数据集、训练日志和预训练配置。这就引出了开源许可的另一个方面。传统的开源软件就是代码。它是开源的,意味着你可以看到它的作用以及是否存在潜在的问题或漏洞。
然而,GenAI不仅仅是代码。它还包括训练数据、模型权重和微调。所有这些都是了解模型工作原理并识别潜在偏见的关键。一个模型如果训练在地平说阴谋论的存档上,它将无法回答科学问题,或者由朝鲜黑客进行微调的模型可能无法正确识别恶意软件。那么,开源LLM是否发布所有这些信息?这取决于模型,甚至取决于模型的特定版本,因为没有标准。
“有时它们会提供代码,但如果你没有微调,你可能会花费很多钱才能达到相当的性能,”卡内基梅隆大学AI教授、前普华永道全球AI负责人Anand Rao说。
2. 技能短缺
开源通常是一种自助式的努力。公司可以下载代码,但然后它们需要内部专家或雇佣的顾问来使一切正常工作。这在GenAI领域是一个大问题。没有人有多年的经验,因为这项技术太新了。如果一家公司刚刚开始使用GenAI,或者它想快速推进,Rao说,最好从专有平台开始。
“下载开源版本需要专业知识,”他说。但是,一旦公司完成了概念验证,将模型部署到生产中,并开始产生费用,那么就可能是时候考虑开源替代品了,他补充道。
行业经验的缺乏也给开源GenAI领域带来了另一个问题。开源的一个关键优势是,许多人查看代码,可以发现编程错误、安全漏洞和其他弱点。但是,这种“千眼”方法只有在确实有千眼能够理解他们看到的东西时才起作用。
3. 越狱
LLM特别容易越狱,即用户给它一个巧妙的提示,使其违反其指南,例如生成恶意软件。在商业项目中,有高度动机的供应商在背后支持他们,可以识别这些漏洞并在它们出现时关闭它们。此外,供应商可以访问用户发送给公共版本模型的提示,因此他们可以监控是否有可疑活动的迹象。
恶意行为者不太可能购买在私人环境中运行的企业版本的产品,这些提示不会共享给供应商以改进模型。对于开源项目,团队中可能没有任何人负责寻找越狱的迹象。坏人可以免费下载这些模型,并在他们自己的环境中运行,以测试潜在的漏洞。坏人还可以看到模型使用的系统提示以及模型开发人员可能构建的任何其他防护措施,从而在越狱时占得先机。
“这不仅仅是试验和错误,”Rao说。攻击者可以分析训练数据,例如,找出使模型误识别图像的方法,或者当它遇到看似无害的提示时出错。
如果一个AI模型在其输出上添加水印,恶意行为者可能会分析代码以逆向工程过程,以去除水印。攻击者还可以分析模型或其他支持代码和工具,找出漏洞区域。
“你可以用请求淹没基础设施,这样模型就不会工作了,”全球数字化转型咨询公司Nortal的高级数据科学家和能力主管Elena Sügis说。“当模型是更大系统的一部分时,它的输出被系统的另一个部分使用,如果我们可以攻击模型产生输出的方式,它将扰乱整个系统,这对企业来说可能是危险的。”
4. 训练数据的风险
艺术家、作家和其他版权持有者正左和右地起诉大型AI公司。但是,如果他们认为他们的知识产权被一个开源模型侵犯了,而唯一有深口袋的是那些将该模型纳入其产品或服务的企业用户呢?企业用户会被起诉吗?
“这是一个潜在的问题,没有人真正知道一些待决诉讼将如何解决,”EY的Guarrera说。我们可能正走向一个必须对数据集进行某种补偿的世界,他说。“大科技公司更有能力花钱来应对可能围绕版权的风暴。”
大型商业供应商不仅有钱购买训练数据和打官司,他们也有钱购买策划的数据集,Sügis说。免费的公共数据集不仅包含未经许可使用的版权内容。它们还充满了不准确和有偏见的信息、恶意软件和其他可能降低输出质量的材料。
“许多模型开发者正在谈论使用策划的数据,”她说。“这比你将整个互联网扔给它进行训练要贵得多。”
5. 新的数据泄露渠道
由于GenAI项目不仅仅是代码,还有更多潜在的数据暴露风险。LLM(大型语言模型)可能在多个方面受到恶意行为者的攻击。他们可能会渗透到管理不善的项目开发团队中,在软件中添加恶意代码。但他们也可能会毒害训练数据、微调或权重,Sügis说。
“黑客可能会用恶意代码示例重新训练模型,这样它就会侵入用户的基础设施,”她说。“或者他们可以用假新闻和错误信息训练它。”
另一个攻击向量是模型的系统提示。
“这通常对用户是隐藏的,”她补充道。“系统提示可能包含让模型识别不受欢迎或不道德行为的防护措施或安全规则。”
专有模型不会公开其系统提示,她说,访问这些提示可能会让黑客找到攻击模型的方法。
6. 缺少防护措施
一些开源团体可能在哲学上反对在其模型上设置防护措施,或者他们认为模型在没有任何限制的情况下表现会更好。而有些模型则专门为恶意用途而创建。企业在选择LLM时可能不一定知道他们的模型属于哪一类。Nortal的Sügis说,目前没有独立机构评估开源GenAI模型的安全性。欧洲的《人工智能法案》将要求提供一些此类文件,但大部分规定要到2026年才会生效,她说。
“我会尽可能多地获取文档,测试和评估模型,并在公司内部实施一些防护措施,”她说。
7. 缺乏标准
用户驱动的开源项目通常基于标准,因为企业用户喜欢它们,并且希望实现互操作性。事实上,根据Linux基金会去年发布的一项对近500名技术专业人员的调查,71%的人更喜欢开源标准,相比之下只有10%的人更喜欢封闭标准。而生产专有软件的公司可能更希望将其客户困在其生态系统中。但如果你认为所有的开源GenAI都是基于标准的,那你就错了。
事实上,当大多数人谈论AI标准时,他们谈论的是伦理、隐私和可解释性等内容。而在这一领域确实有一些工作正在进行,例如去年12月发布的ISO/IEC 42001人工智能管理系统标准。4月29日,NIST发布了一个AI标准草案,涵盖了很多内容,从创建一个关于AI的通用语言开始,也主要关注风险和治理问题。但在技术标准方面,进展不大。
“这是一个非常初期的领域,”云原生计算基金会的CIO兼生态系统负责人Taylor Dolezal说。“我看到一些关于数据分类的好对话,讨论为训练数据、API和提示设置标准格式。”但到目前为止,这些只是对话。
他说,目前已经有一个向量数据库的通用数据标准,但没有标准查询语言。关于自主代理的标准呢?
“我还没有看到,但我希望看到,”他说。“找出不仅让代理执行特定任务的方法,还要把这些任务联系在一起。”
用于创建代理的最常见工具LangChain更像是一个框架而不是标准,他说。而用户公司,即那些对标准有需求的公司,还没有准备好,“大多数最终用户在实际操作之前并不知道他们想要什么。”
相反,他说,人们更有可能将大供应商的API和接口视为潜在的事实标准。“这就是我看到人们在做的事,”他说。
8. 缺乏透明度
你可能认为开源模型本质上更透明,但情况可能并非总是如此。大型商业项目可能有更多资源来创建文档,BI软件供应商Vero AI的CEO Eric Sydell说。该公司最近发布了一份报告,基于可见性、完整性、立法准备情况和透明度等方面对主要的GenAI模型进行了评分。Google的Gemini和OpenAI的GPT-4排名最高。
“仅仅因为它们是开源的,并不意味着它们提供相同的信息,关于模型的背景和开发方式,”Sydell说。“目前,大型商业模型在这方面做得更好。”
以偏见为例。
“我们发现我们的排名中前两名的闭源模型在这方面有相当多的文档,并投入时间探讨这个问题,”他说。
9. 源代码问题
开源项目经常被分叉,但当这种情况发生在GenAI时,你会面临传统软件中不存在的风险。比如,一个基础模型使用了有问题的训练数据集,有人从中创建了一个新模型,那么它将继承这些问题,Sonatype的产品高级副总裁Tyler Warden说。
“在权重和调优方面有很多黑箱操作,”他说。
事实上,这些问题可能追溯到好几级代码,最终模型的代码中不会显示出来。当公司下载一个模型供自己使用时,这个模型与原始来源的距离越来越远。原始基础模型可能已经修复了这些问题,但根据上下链的透明度和沟通量,最后一个模型的开发人员可能甚至不知道这些修复。
10. 新的影子IT
使用开源组件作为软件开发过程一部分的公司,通常会有相应的流程来审核库并确保组件是最新的。他们会确保项目有良好的支持,安全问题得到处理,并且软件具有适当的许可证条款。
然而,对于GenAI,负责审核的人可能不知道要查找什么。此外,GenAI项目有时会脱离标准的软件开发流程。它们可能来自数据科学团队或秘密项目。开发人员可能会下载模型来试验,最终被更广泛地使用。或者业务用户自己可能会按照在线教程设置他们自己的GenAI,完全绕过IT部门。
GenAI的最新发展,自治代理,有可能将巨大的力量交到这些系统手中,从而将这种类型的影子IT的风险提升到新的高度。
“如果你要进行实验,创建一个容器,以一种对组织安全的方式进行,”Corelight开源高级总监Kelley Misata说。她表示,这应该由公司的风险管理团队负责,并且确保开发人员以及整个业务理解有一个流程的是CIO的责任。
“他们是最适合设定文化的人,”她说。“让我们利用开源提供的创新和所有伟大之处,但要睁大眼睛进入。”
两全其美的方式
一些公司在寻找开源的低成本、透明度、隐私和控制,但希望有一个供应商来提供治理、长期可持续性和支持。在传统的开源世界中,有很多供应商可以做到这一点,比如Red Hat、MariaDB、Docker、Automattic等。
“它们为大型企业提供了一定程度的安全性和保障,”AArete数据科学和分析副总裁Priya Iragavarapu说。“这几乎是一种降低风险的方式。”
她说,在GenAI领域,这样的供应商还不多,但情况正在开始改变。