由于OpenAI的ChatGPT火爆发布以及随后谷歌和微软之间的搜索引擎大战,大型语言模型(LLM)及其应用程序突然成为热门话题。ChatGPT和类似的系统正在重新激活我们对搜索的新体验和新概念。现在用户可以使用人类语言与搜索引擎进行自然交互,而不是依赖特定的关键词或复杂的搜索查询语法。
问答(QA)系统是自然语言处理(NLP)的一种能力,是LLM所能实现的一组语言能力,但QA系统并不总是一个流行的用例。NLP搜索公司Kyndi的的首席执行官Ryan Welsh回忆说,他在解释公司对NLP搜索时遇到了困难:“我记得三年前筹集了资金,每个人都说,‘嘿,很酷,你是NLP,但这个搜索不是一个好的应用案例。’”
Welsh表示,因为ChatGPT的兴起,越来越多人意识到自然语言能力的价值,这种反应已经完全改变:“我觉得ChatGPT在90-120天内达成了十年的宣传效果。”
现在,数十亿美元正在投资于下一代搜索技术。突然之间,市场对QA系统产生了真正的需求,该系统可以快速准确地回答利益相关者或访问公司网站或知识门户的外部客户提出的问题,以及搜索公司文档的内部员工提出的问题。
然而,Welsh表示,目前的这些聊天机器人技术无法满足企业的需求,作为最终用户信任的关键的可解释性往往缺乏。企业对大型语言模型系统的要求是生成的答案准确可靠,而不是充满了来自网络内容的训练数据的“错乱”,这是像ChatGPT这样的大型主流模型面临的问题(延展阅读:)。由于其底层技术的统计性质,聊天机器人可能会产生错误信息的混乱,因为他们实际上并不理解语言,只是在预测下一个最好的单词。通常,训练数据非常广泛,几乎不可能解释聊天机器人是如何得出它给出的答案的。
这种缺乏可解释性的人工智能“黑匣子”方法根本不适用于许多企业。Welsh举了一个制药公司的例子,该公司正在向医疗保健提供者或访问其药品网站的患者提供答案。该公司被要求知道并解释每一个可以提供给提问者的搜索结果。因此,尽管最近对ChatGPT等系统的需求激增,但根据Welsh的说法,使其适应这些严格的企业要求并不是一项容易的任务,而且这种需求往往得不到满足。
Welsh表示,多年来,他的公司一直专注于这些企业需求,从经验中学习,并与客户直接互动。Kyndi由威尔士人工智能专家Arun Majumbar和计算机科学家John Sowa于2014年创立,John Sowa是知识图谱谱专家,1976年在IBM引入了一种称为概念图的特定类型。
Kyndi的自然语言搜索应用程序建立在知识图谱和LLM突破的基础上,采用了神经符号人工智能,这是一种补充统计机器学习技术的语义方法。该系统不只是预测文本中下一个最有可能的单词,还是创建语言的符号表示,利用向量和知识图谱技术来映射数据之间的关系。这使系统能够理解最终用户问题背后的真实意图,有助于找到特定于上下文的答案,同时区分常见的同义词、语义等效的单词、缩写词和拼写错误。
这项技术几乎不需要训练数据就能发挥作用,这可以缓解由于缺乏标记数据和人工智能专业知识而造成的瓶颈。与数据标签相关的高成本使得训练和微调LLM对许多企业来说过于昂贵。这种调整的容易性是Kyndi神经符号方法的另一个区别因素。Welsh表示,许多企业客户已经被缓慢的人工智能部署折磨。一家大型制药公司在与Kyndi合作之前,已经使用六名机器学习工程师和数据科学家对LLM进行了六个多月的调整。Welsh说,Kyndi只需要一名商业分析师的帮助,就可以在一天内训练和调整他们的模型。在其他几个案例中,Kyndi能够在两周内通过演示、沙箱验证和部署来完成人工智能项目。
“我认为,在未来10年的某个时候,世界上每一家企业的每一个搜索栏和每一个聊天界面都会有一个答案引擎。这将是我们在企业软件中看到的最大的转变。”Welsh说,并将这一时刻与从预处理到云的转变进行了比较。“我认为目前没有任何供应商能够主导这个市场。”
Welsh预测,在这个企业搜索领域的新时代,获胜的公司是那些有远见将产品投放市场的公司。尽管竞争目前正在升温,但其中一些新公司已经落后了。他估计在获得成功前,他们还有大约2-3年和价值3000万美元的建设工作要做。