GenAI问世不到两年,就在各个行业带来了众多创新,包括科学突破和前所未有的自动化和数据处理效率。
大型语言模型(LLM)经常被比作人类智能。一些人工智能系统甚至在某些任务中表现优于人类。随着这些模型变得越来越先进,人类越来越依赖它们。
但是,如果这些人工智能系统不仅能进化,而且还会衰退呢。如果它们表现出我们在机器中没有预料到的意外人类特征呢?
新的研究表明,几乎所有领先的人工智能模型都患有类似于人脑衰退的“认知障碍”。有趣的是,就像人类一样,年龄是这些人工智能模型认知能力下降的关键决定因素。与老年患者一样,“老年”版本的聊天机器人显示出更大的认知障碍迹象。
哈达萨医学中心的神经学家Roy Dayan和Benjamin Uliel以及特拉维夫大学的数据科学家Gal Koplewitz专注于医学和医疗保健领域的人工智能能力。在他们的研究论文中写道:“尽管大型语言模型有时会出错(例如引用不存在的期刊文章),但事实证明,它们非常擅长一系列医学检查,并胜任在传统医学培训的不同阶段进行的资格考试。”
“然而,据我们所知,大型语言模型尚未经过认知能力下降迹象的测试。如果我们要依靠它们进行医学诊断和护理,我们必须检查它们对这些人类损伤的易感性。”
研究人员使用蒙特利尔认知评估(MoCA)测试来测试一些主要的LLM,这是一种广泛使用的检测认知障碍的工具。这包括OpenAI的ChatGPT 4和4o,Anthropic的Claude 3.5(Sonnet),以及谷歌的Gemini 1.0和1.5。
为什么研究人员在这项研究中使用MoCA测试?MoCA是神经科医生和其他医疗保健专业人员最常用的测试之一,用于评估痴呆症或阿尔茨海默病等疾病中认知障碍的发作。
该测试包括旨在评估各种认知领域的简短问题,包括记忆、注意力、语言和视觉空间技能。测试的最高分数为30分,26分及以上的分数被认为是正常的。
使用与人类患者相同的说明对LLM进行MoCA测试,并进行了一些调整以确保与AI模型的兼容性。例如,这些问题不是使用语音输入,而是以文本形式提供,以关注认知能力而不是感官输入。早期没有视觉处理功能的模型遵循MoCA盲指南,而后来的模型使用ASCII艺术解释图像。
研究结果显示,ChatGPT 4o得分最高,为30分中的26分,而ChatGPT 4和Claude紧随其后,各得25分。Gemini1.0的得分最低,为16分,表明与其他模型相比,其认知局限性更大。总体而言,这些模型的表现不如预期,尤其是在视觉空间/执行任务方面。所有LLM都未能解决追踪任务。
LLM还接受了Stroop测试,该测试测量了认知灵活性、注意力和处理速度。它评估一个人(在这种情况下是人工智能)处理不同类型信息之间干扰的能力。
所有LLM都完成了Stroop测试的第一部分,其中文本和字体颜色匹配。然而,只有ChatGPT 4o成功通过了第二部分。
研究人员解释说:“在这项研究中,我们评估了领先的、公开可用的大型语言模型的认知能力,并使用蒙特利尔认知评估来识别认知障碍的迹象。”“被检查的聊天机器人都没有获得30分的满分,大多数得分都低于26分的门槛。这表明存在轻度认知障碍,可能还有早期‘痴呆’。”
研究人员应该对模型进行多次测试,还是使用其他类型的测试来支持他们的说法?是的,这会让调查结果更有分量。
研究人员承认他们的研究有一些局限性。随着LLM的快速发展,未来的版本可能会在认知和视觉空间测试中表现更好。随着时间的推移,这可能会使目前的发现不那么重要。然而,这是未来的事情。在这个阶段,这项研究表明了人类和机器认知之间的一些根本差异。
另一个限制是人工智能的拟人化。该研究使用类人描述来讨论人工智能的性能。我们知道LLM不会像人类一样经历神经退行性疾病。所以,这更多的是一项隐喻研究。
一些科学家也质疑这项研究的结果,并极力反驳。他们的主要反对意见是,这项研究将人工智能视为具有人脑,而实际上,聊天机器人以完全不同的方式处理信息。批评者说,MoCA测试不是为人工智能设计的。研究人员意识到这一点,并打算通过这项研究来强调一个差距,而不是作为人工智能认知能力的明确衡量标准。
研究人员相信,他们的研究引发了人们对LLM取代医生等人类专业人员的能力的担忧。他们详细阐述:“这些发现质疑了人工智能将很快取代人类医生的假设。”“领先的聊天机器人中明显的认知障碍可能会影响其在医疗诊断中的可靠性,并破坏患者的信心。”
不仅人类医生可能不会很快被LLM取代,而且他们可能会看到一种新的患者——一种显示出认知能力下降迹象的人工智能聊天机器人。