AI,特别是GenAI和大型语言模型,已经在技术上取得了巨大的进步,并正在到达行业广泛采用的拐点。麦肯锡的报告称,AI领域的佼佼者已经在“全力以赴”,企业知道,他们必须接受最新的AI技术,否则就会被甩在后面。
然而,AI安全领域仍然不成熟,这给使用该技术的企业带来了巨大的风险。AI和ML出现错误的例子并不难找到。在从医学到执法的各个领域,原本应该是公正和不偏不倚的算法被暴露为存在隐藏的偏见,进一步加剧了现有的社会不平等,给它们的制定者带来了巨大的声誉风险。
微软的Tay聊天机器人可能是对企业最著名的警示故事:它被训练成用十几岁的口头禅说话,然后被互联网巨魔重新训练,吐出未经过滤的种族主义厌女者的胆汁,很快就被这位尴尬的科技巨头下架——但在造成声誉损害之前。即使是大肆吹嘘的ChatGPT也被称为“比你想象的更愚蠢”。
企业领导人和董事会明白,他们的企业必须开始利用GenAI的革命性潜力,但是,当他们在AI安全问题的雷区运营时,他们是如何开始考虑识别初始用例和原型的呢?
答案在于关注一个我称之为“干草堆中的针”问题的类用例。对于人类来说,搜索或生成潜在的解决方案相对困难,但验证可能的解决方案相对容易。由于其独特的性质,这些问题非常适合早期的行业用例和采用,而且,一旦我们认识到这种模式,我们就会意识到干草堆问题比比皆是。
以下是一些应用场景和案例:
1、文案编辑
检查一份长篇文件的拼写和语法错误是很困难的。虽然从Word的早期起,计算机就能够发现拼写错误,但在AI出现之前,准确地找到语法错误被证明是更加难以捉摸的,即使是这些错误也经常错误地将完全有效的短语标记为不符合语法的。
我们可以看到复制编辑是如何适用于干草堆范例的。人类可能很难在一份冗长的文档中发现语法错误,一旦AI发现了潜在的错误,人类就很容易验证它们是否确实不符合语法,这最后一步是至关重要的,因为即使是现代的AI工具也不完美。像Grammarly这样的服务机构已经在利用大语言模型来做到这一点。
2、编写样板代码
编写代码最耗时的方面之一是学习新API或库的语法和约定,这个过程需要大量研究文档和教程,而且每天都有数以百万计的软件工程师重复这个过程。利用在这些工程师编写的集体代码上接受培训的GenAI,Github Copilot和Tabine等服务已经自动执行了按需生成样板代码的繁琐步骤。
这个问题非常符合干草堆的范例。虽然人类在不熟悉的库中生成工作代码所需的研究工作很耗时,但验证代码是否正确工作相对容易(例如,运行它)。最后,与其他AI生成的内容一样,工程师必须在将代码交付生产之前进一步验证代码是否按预期工作。
3、搜索科学文献
即使对于训练有素的科学家来说,跟上科学文献也是一项挑战,因为每年发表的论文有数百万篇,然而,这些论文提供了一座科学知识的金矿,只要他们的知识能够被处理、吸收和结合,专利、药物和发明就随时可以被发现。
尤其具有挑战性的是跨学科洞察,它需要两个往往互不相关的领域的专业知识,而掌握这两个学科的专家寥寥无几。幸运的是,这个问题也适用于干草堆课程:通过阅读引出这些想法的论文来检查潜在的AI产生的新想法要容易得多,而不是产生散布在数百万科学作品中的新想法。
而且,如果AI能够像学习数学一样粗略地学习分子生物学,它将不会受到人类科学家面临的学科限制的限制。像排版这样的产品已经是朝这个方向迈出的有希望的一步。
人类验证至关重要
上述所有用例中的关键洞察是,虽然解决方案可能是AI生成的,但它们始终是经过人类验证的。让AI代表一家大企业直接与世界对话(或在世界上采取行动)是可怕的风险,历史上充满了过去的失败。
让人工验证AI生成的内容的输出对于AI的安全至关重要。对干草堆问题的关注改进了对人工验证的成本效益分析,这让AI专注于解决人类难以解决的问题,同时保留了人类操作员简单但关键的决策和复核。
在低成本管理的这些新生日子里,专注于干草堆用例可以帮助企业建立AI体验,同时缓解潜在的严重的AI安全问题。