ChatGPT 等大模型的相继发布,让很多人倍感压力,害怕 AI 会很快接管他们的工作。对此,OpenAI 也曾发表过一项研究,表明 ChatGPT 的影响涵盖所有收入阶层,且高收入工作可能面临更大的风险。事实到底如何呢?
我们应该将所有的工作,即使是那些令人满意的工作都实现自动智能化吗?
这是未来生命研究所 (Future of Life Institute) 最近提出的几个问题之一,该研究所呼吁暂停大型人工智能实验,目前埃隆・马斯克 (Elon Musk) 、Steve Wozniak 和 Andrew Yang 等 1 万多人均已签署了该倡议。尽管可能有一些炒作的意味,但它听起来仍十分严重 —— 然而,人工智能究竟如何被用于实现所有工作的自动智能化呢?先不考虑这是否可取 —— 试想,它真的可能吗?
麻省理工学院连接科学研究所研究员 Douglas Kim 表示:我认为真正的障碍是,我们从 OpenAI 和谷歌 Bard 看到的通用人工智能功能的涌现,与早期互联网普遍可用或云基础设施服务可用的情况类似。它还没有像提到的那样,为数亿工作者的普遍使用做好准备。
即使研究人员也无法跟上 AI 创新的步伐
Douglas Kim 指出,虽然革命性的技术可以迅速传播,但在被证明为有用、易于使用的应用程序之前,它们通常无法得到广泛运用。他指出,生成式 AI 将需要特定的商业应用,才能超越早期采用者的核心受众。
Augment 公司 AI 负责人 Matthew Kirk 也持相似观点:「我认为 AI 行业正在发生的事情与互联网早期发生的事情类似。当时的互联网各种观点非常混乱,没有标准。人类需要时间和合作来确定人们遵循的标准。即使是像测量时间这样平凡的事情也非常复杂。」
标准化是人工智能发展的痛点。用于训练模型和微调结果的方法是保密的,这使得有关它们是如何运作这一基本问题难以解答。OpenAI 一直在吹捧 GPT-4 通过众多标准化测试的能力 —— 但模型是真正理解了测试,还是仅仅只是训练重现正确答案呢?对于它能够处理新奇任务的能力,这又意味着什么呢?研究人员似乎无法就此答案达成一致,也无法就可能用于得出结论的方法达成一致。
对比 GPT 3.5 和 GPT 4 的标准化测试成绩图表
OpenAI 的 GPT-4 可以在很多标准化测试中取得好成绩。它是真正理解了它们,还是接受了正确答案的训练?
即使可以就标准达成一致,设计和生产广泛使用在基于 GPT -4 等大语言模型 (LLMs) 或其他生成式 AI 系统的 AI-powered 工具所需的物理硬件也可能是一个挑战。Optiver 全球研究基础设施负责人 Lucas A. Wilson 认为,AI 行业正在进行一场军备竞赛,以生产出尽可能复杂的大型语言模型(LLM)。这反过来又迅速增加了训练模型所需的计算资源。
和人类一样,AI 也不会免费工作
与此同时,开发人员必须找到应对限制的方法。从零开始训练一个强大的大型语言模型(LLM)可以带来独特的机会,但这只适用于资金充足的大型组织。实现一项可以运用现有模型的服务要便宜得多 (例如,Open AI 的 ChatGPT-3.5 Turbo 对 API 访问的定价约为每 1000 个英语单词 0.0027 美元)。但当人工智能驱动的服务变得流行时,成本仍然会增加。无论哪种情况,推出可无限制使用的 AI 都是不现实的,这将迫使开发者做出艰难的选择。
Hidden Door,一家通过构建 AI 平台来制作叙事型游戏的初创公司,其首席执行官兼联合创始人 Hilary Mason 表示:「一般来说,依靠 AI 创立的初创公司应该对所有特定供应商应用程序编程接口(API)的依赖都持非常谨慎的态度。我们也可以构建不必让 GPU 成为核心的架构,但这需要相当多的经验。」
Hidden Door 正在开发用于帮助用户运用人工智能来制作独特叙事体验的软件。这是一个用于生成叙事游戏的 AI-powered 屏幕截图工具。它包括用户可以选择的多个 character 和 prompt。
大多数基于生成式 AI 构建的服务都会对每月生成的内容量设有一个固定的上限。这些专业服务费用对于企业来说可能会增加成本,从而拖慢人们工作任务智能自动化的步伐。即使是拥有大量资源的 OpenAI,也会根据当前的负载限制 ChatGPT 的付费用户:截至本文撰写时,它所设置的上限是每 3 小时 25 次 GPT-4 查询。因而,对于任何想要依赖 ChatGPT 工作的人来说,这都是一个巨大问题。
AI-powered 工具的开发人员还面临着一个和计算机本身一样古老的挑战 —— 设计一个好的用户界面。一个能够完成许多任务的强大 LLM(大型语言模型)应该是一个无与伦比的工具,但是如果使用它的人无从下手,那么它完成任务的能力就无关紧要了。Kirk 指出,虽然 ChatGPT 是易于使用的,但当用户需要专注于特定的任务时,通过聊天与 AI 交互的开放性可能被证明会令人无所适从。
Kirk 说:「我从过往经历中了解到,让工具完全开放往往会给用户带去困惑,而非帮助。你可以把它想象成一个有着无穷无尽门廊的大厅。大多数人都会困惑重重,手足无措,呆在原地。我们仍有诸多工作要做,来确定为用户展示最优的那扇门「。Mason 也有类似的观察,他补充说:「就像 ChatGPT 主要是对 GPT-3 的 UX 优化一样,我认为我们仅仅只是刚开始创造出 UI 设计中的隐喻,我们还需要在产品中有效地运用 AI 模型。」
训练使用 AI 本身就是一项工作
幻觉(hallucination),作为 LLM 一个特殊的问题,早已引发了争议,它还严重阻碍到了为敏感且重要的工作构建 AI 工具的进程。LLM 有一种令人难以置信的能力,它可以生成独特的文本,讲述笑话,编造关于虚构人物的事迹。然而,当精确性和准确性成为任务的关键时,这个技能却变成了一种障碍,因为 LLM 经常会将不存在的虚假消息来源或不正确的陈述当作事实。
Kim 表示:在某些受到严格监管的行业 (银行、保险、医疗保健),公司的特定职能部门都很难调和好非常严格的数据隐私和防止歧视的其他监管要求之间的关系。在这些受监管的行业,你不能让 AI 犯那种在写课程论文时还可以看得过去的错误。
企业可能会争先雇佣那些具备 AI 工具专业知识的员工。人工智能安全和研究公司 Anthropic 最近因为一则招聘广告上了头条,他们在招聘一名 prompt 工程师和图书管理员时,注明需要应聘者在完成其它本职工作以外,可负责建立 “一个具备高质量 prompt 或 prompt 链的图书馆,以完成各种任务”。薪水 17.5 万到 33.5 万美元。
然而,Wilson 看到了有效使用 AI 工具所需的专业知识与 AI 承诺提供的效率之间的矛盾。
「如何招聘人才来从事为 LLMs 提供培训的全新工作,以解放那些早已专注于更复杂或更抽象工作任务的员工呢?」Wilson 问道。「我还没有看到一个明确的答案。」
尽管存在这些问题,但利用人工智能增强工作仍可能是值得的。计算机革命显然就是如此:尽管许多人需要训练才能使用 Word 和 Excel 工具,但很少有人会提出打字机或图表纸可以作为更好的替代。正如未来生命研究所的信中所担忧的那样,「我们用自动化取代所有工作,包括令人满意的工作」。虽然这样的未来至少还需要半年多的时间,但人工智能革命现在正在拉开帷幕,而且从今天起的十年里,人工智能革命的画卷将会不断展开。