生成式人工智能的七个秘密-51CTO.COM

无论是否被过度炒作，人工智能算法的前景依然广阔。但是，IT 领导者要想利用当今最热门的新兴技术，就必须牢记以下核心问题。

股价飙升。生成式人工智能算法可以创作出任何风格的惊人艺术作品，然后一转眼就能写出语法精湛的长篇文章，这让每个人都惊叹不已。每一位首席信息官和首席执行官都在自己的演示文稿中准备了一三张幻灯片，讨论生成式人工智能将如何改变他们的业务。

这项技术仍处于起步阶段，但其能力已经毋庸置疑。下一波计算浪潮将涉及生成式人工智能，可能会在工作流程的多个地方出现。这股浪潮将势不可挡。

会出什么问题呢？嗯，很多事情。末日论者认为，经济会遭到彻底破坏，人类会被奴役，动物世界也会被奴役。

他们可能会紧张得喘不过气来。但即使最糟糕的情况从未出现，也并不意味着一切都会完美无缺。生成式人工智能算法仍然非常新颖，而且发展迅速，但仍有可能在基础上出现裂缝。深入研究这些算法，你仍然会发现它们有一些地方无法达到预期的效果。

以下是生成式人工智能算法的 N 个秘密，在计划如何将该技术融入企业工作流程时应牢记在心。

01 ｜他们凭空捏造错误

大型语言模型（LLMs）能写出 1000 字的文章，论述沙鹤的交配仪式或 17 世纪东欧建筑中凸棱的重要性等晦涩难懂的话题，这种方式几乎有一种魔力。但同样的魔力也能让他们凭空捏造出错误。他们游刃有余地使用动词变位和语法，其能力不亚于受过大学教育的英语专业学生。许多事实完全正确。然后，瞧，他们就像一个四年级的小学生一样胡编乱造起来。

LLM 的结构使得这种情况不可避免。它们使用概率来学习单词如何搭配。有时，数字会选择错误的词语。没有真正的知识，甚至没有本体论来指导它们。这只是概率，有时骰子会掷出骰子。我们可能认为自己在与一个新的高级生命进行心灵交融，但其实我们与在拉斯维加斯寻找掷骰子信号的赌徒并无不同。

02 ｜它们是数据筛

人类试图建立一个复杂的知识等级体系，其中有些细节只有内部人员知道，有些则与所有人共享。这种一厢情愿的等级制度在军事分类系统中最为明显，但许多企业也有这种制度。对于 IT 部门和管理这些系统的首席信息官来说，维护这些层次结构往往是一件非常麻烦的事情。

LLM 在这些分类方面做得并不好。虽然计算机是规则的终极遵守者，它们可以保存几乎无限复杂的目录，但 LLM 的结构并不允许某些细节是保密的，某些细节是可以共享的。这一切只是马尔可夫链上概率和随机行走的巨大集合。

甚至在一些令人毛骨悚然的时刻，LLM 会利用其概率将两个事实粘合在一起，并推断出一些名义上秘密的事实。如果有相同的细节，人类甚至会做同样的事情。

也许有一天，法律硕士能够保持强大的保密层，但目前，这些系统的最佳训练方式是使用非常公开的信息，一旦泄露，不会引起轰动。目前已经有几个备受关注的例子，涉及公司数据泄露和法律硕士规避法律风险。一些公司正试图将人工智能转化为阻止数据泄露的工具，但我们还需要一些时间才能了解做到这一点的最佳方法。在此之前，首席信息官们最好对提供给他们的数据严加管理。

03 ｜它们助长了懒惰

人类非常善于信任机器，尤其是在机器省力的情况下。当 LLM 在大多数时候都证明自己是正确的时候，人类就会开始一直信任它们。

即使要求人类重复检查人工智能，效果也不会太好。当人类习惯了人工智能的正确性之后，他们就会开始迷失方向，相信机器就是正确的。

这种懒惰开始充斥整个组织。人们不再独立思考，最终企业陷入低能耗的停滞状态，没有人愿意跳出框框思考问题。这种状态可以让人暂时放松，没有压力--直到竞争对手出现。

04 ｜其真实成本不得而知

没有人知道使用 LLM 的正确成本。许多应用程序接口都有价格标签，上面标明了每个令牌的成本，但有迹象表明，风险资本对这些令牌进行了大量补贴。我们看到 Uber 等服务也是如此。价格一直很低，直到投资者的钱花光了，价格才一路飙升。

有迹象表明，目前的价格并不是最终主导市场的真实价格。租用一个好的 GPU 并保持其运行可能要贵得多。在本地运行 LLM，在机架上装满显卡可以节省一些费用，但这样就失去了交钥匙服务的所有优势，比如只需在需要时支付机器的费用。

05 ｜它们是版权噩梦

市场上已经有一些不错的法学硕士，他们可以处理一般的琐事，比如做高中家庭作业或写大学入学论文，这些都强调学生的独立性、干劲、写作能力和道德品质--哦，还有他们独立思考的能力。

但是，大多数企业并没有这类一般性的琐事让人工智能去做。他们需要针对具体业务定制结果。基本的 LLM 可以提供一个基础，但仍然需要大量的培训和微调。

很少有人能找出汇集这些训练数据的最佳方法。有些企业很幸运，拥有自己控制的大型数据集。然而，大多数企业发现，他们并没有解决版权方面的所有法律问题。一些作家提起诉讼，因为在使用他们的作品训练人工智能时，没有征求他们的意见。一些艺术家觉得自己被剽窃了。隐私问题仍在解决中。你能用客户的数据训练人工智能吗？版权问题解决了吗？您是否拥有正确的法律形式？数据的格式是否正确？要创建一个优秀的、定制化的人工智能，让它在您的企业中发挥作用，还有很多问题需要解决。

06 ｜它们可能会导致供应商锁定

从理论上讲，人工智能算法是一种通用工具，抽象掉了用户界面的所有复杂性。它们应该是独立的，能够处理生活--或它们所服务的白痴人类--给它们带来的任何问题。换句话说，它们不应该像应用程序接口那样僵化和缺乏灵活性。从理论上讲，这意味着可以很容易地快速更换供应商，因为人工智能只会适应。当需要切换供应商时，就不需要某个程序员团队重写胶水代码，也不需要做所有会带来麻烦的事情。

但在现实中，它们仍然存在差异。应用程序接口可能很简单，但它们仍然存在差异，比如调用的 JSON 结构。但真正的差异却深藏其中。为生成式人工智能编写提示是一门真正的艺术。要让人工智能发挥出最佳性能并不容易。现在已经有一份职位描述，要求聪明人了解其特异性，并能编写更好的提示语，提供更好的答案。即使应用程序接口的差异很小，但提示结构的怪异差异也让人很难快速切换人工智能。

07 ｜他们的智慧仍然浅薄

长期以来，对教材的浅尝辄止与深入睿智的理解之间的差距一直是大学的一个主题。亚历山大-波普（Alexander Pope）写道："一点学问是危险的；

深饮吧，否则尝不到皮埃尔泉水的滋味"。那是在 1709 年。

其他聪明人也注意到了人类智力极限的类似问题。苏格拉底的结论是，尽管他学识渊博，但其实一无所知。莎士比亚认为，智者自知是个傻瓜。这样的例子不胜枚举，其中大部分对认识论的见解都以这样或那样的形式应用到了神奇的生成式人工智能中，而且往往应用得更为广泛。首席信息官和技术领导团队面临着艰巨的挑战。他们需要充分利用生成式人工智能所能产生的最佳效果，同时努力避免在所有智力浅滩上搁浅，而这些浅滩一直以来都是人类、外星或计算智能所面临的问题。

来源：www.cio.com