与 ChatGPT 的对话:技术、应用和局限性
人工智能聊天机器人的出现引起了全世界的注意,它可以生成类似人类的句子并写出连贯的文章。本文讨论了聊天机器人的历史概况以及Chat Generative Pre-trained Transformer(也称为ChatGPT)背后的技术。此外,还强调了ChatGPT在医疗保健、教育和科研等各个领域的潜在应用。尽管取得了可喜的成果,但围绕ChatGPT仍存在一些隐私和道德问题。此外,作者还强调了当前版本的ChatGPT的一些重要限制。还要求ChatGPT对作者试图回答的几个问题提供其观点,并做出回应。
01 介绍
1950年,英国计算机科学家艾伦·图灵(Alan Turing)就人类推理能力是否可以被计算机替代提出质疑:“机器能思考吗?” [1]. 随后,他提出了图灵测试来衡量计算机或人工智能。在图灵测试中,人类询问者会收到来自人类和计算机(具有实时生成书面文本的能力)的响应。如果询问者无法区分答案,则计算机系统通过图灵测试。尽管一些计算机程序和聊天机器人(如 Eliza)在图灵测试 ([2] [3]) 中取得了成功,但这些程序可以说是使用了某些技巧来通过测试 [4],而没有展现任何重要意义的智能。随着机器学习和自然语言处理 (NLP) 的进步,聊天机器人得到了广泛的研究关注,并已用于各种商业和非商业应用 ([5]、[6]、[7]、[8] , [9]).尽管被广泛采用,但大多数聊天机器人都没有个性化,用户满意度仍然值得怀疑 [10]。这种局限性促使研究人员和开发人员将重点放在聊天机器人的参与度上,以使聊天机器人更健谈。
2022 年 11 月,OpenAI 发布了一款名为 ChatGPT 的新型人工智能聊天机器人,引起了公众的极大关注。与之前的任何聊天机器人不同,ChatGPT 以其对各种问题的连贯响应而令公众感到惊讶。在这篇简短的论文中,作者探讨了使 ChatGPT 取得成功的技术,并重点介绍了 ChatGPT 的几个领域和应用。作者还邀请 ChatGPT 回答作者试图回答的一些问题,首先是它对聊天机器人历史的回答。
Q1 您好 ChatGPT,请告诉我聊天机器人的历史
ChatGPT: 当然!可以模拟人类对话的机器的想法可以追溯到几十年前。事实上,第一个聊天机器人是在 20世纪60 年代由麻省理工学院计算机科学家 Joseph Weizenbaum 创建的。Weizenbaum 的聊天机器人,称为 ELIZA,使用一组规则通过提问和给出预设回答来模拟对话。ELIZA 旨在模仿心理治疗师,人们常常惊讶于它能如此令人信服地模拟人类对话。
多年来,聊天机器人不断发展和改进。其中一项关键进步是自然语言处理 (NLP) 技术的发展,该技术使聊天机器人能够更准确地理解和响应人类语言。在 20世纪90 年代和21世纪初期,聊天机器人开始用于客户服务和支持,美国在线和微软等公司开发聊天机器人来帮助用户使用他们的软件和服务。
近年来,人们对聊天机器人的兴趣激增,部分原因是人工智能和机器学习的进步。现代聊天机器人结合使用自然语言处理、机器学习和其他人工智能技术,以更自然、更微妙的方式理解和回应人类语言。它们现在被用于广泛的应用,从客户服务和支持到个人助理和娱乐。
总的来说,聊天机器人的历史是一段引人入胜的历史,它反映了人工智能的发展以及作者越来越渴望创造出能够以更像人类的方式理解作者并与作者互动的机器。
第一印象是 ChatGPT 的响应似乎非常连贯、引人入胜且没有语法错误。还注意到 ChatGPT 在提供事实信息方面做得很好。它设法准确地引用名称和日期。有趣的是,ChatGPT 并没有谈论自己,据了解,它在 2021 年 9 月 之后呈现的信息有限。最后,令人着迷的是,ChatGPT 以其观点的总结结束了其回复。
02 ChatGPT技术:从语言模型到强化学习
机器学习是人工智能 (AI) 的一个子领域,被定义为计算机系统无需明确教导或编程即可从经验中学习的能力。随着计算能力的进步、数据可用性的提高和算法的改进,深度学习已成为一种高性能的预测工具。与传统机器学习不同,深度学习算法使用人工神经网络,通常参数容量很大。深度学习模型通常需要更多的训练数据,但可以提供更好的泛化能力。Transformer 或大型语言模型是一个特殊的深度学习模型家族,已成为文本数据的最先进解决方案。从文本分类到文本生成,这些模型提供了优于其他 AI 模型的性能。
语言模型通常在维基百科等大型语言语料库上进行预训练,但可以针对特定任务进行微调。两个最著名的语言模型包括来自Transformers的双向编码器表示 (BERT) [11] 和生成式预训练Transformer (GPT) [12]。前者主要用于语言中的上下文识别和分类任务,而后者更擅长机器翻译和问答等语言生成任务。
ChatGPT 之前的几个聊天机器人使用语言模型。然而,使 ChatGPT 能够做出连贯且引人入胜的响应的主要因素归功于强化学习的使用。在这种情况下,人类评估人员对 ChatGPT 的响应进行了排名,这使其能够优化其某些参数,从而从本质上成为更好的对话者。ChatGPT 是在 GPT-3 之上开发的,GPT-3 是一种具有 1750 亿个参数的生成自回归语言模型 [13]。为了训练如此复杂的网络,OpenAI 与 Microsoft 合作,据报道其训练资源超过 350GB 内存,耗资 1200 万美元。
Q2 你好 ChatGPT,你是如何被开发出来的?
ChatGPT: 你好!我是由 OpenAI 开发的,OpenAI 是一家专注于以安全有益的方式推进人工智能发展的研究机构。具体来说,我是由 OpenAI 的一组研究人员和工程师开发的,他们使用一种称为 transformer 的深度学习技术和大量文本数据来训练我。Transformer 是一种神经网络,特别擅长处理序列数据,例如语言。
为了训练我,团队向我提供了大量来自各种来源的文本,包括书籍、文章和网站。然后他们使用一种称为无监督学习的过程来教我识别文本数据中的模式。通过这个过程,我学会了理解和生成自然语言。
在我最初的开发之后,我经历了严格的测试和改进过程,以确保我使用起来准确、可靠和安全。自发布以来,我一直在不断更新和改进,以更好地为我的用户服务。
与第一个答案一样,作者对 ChatGPT 回复的引人入胜的性质和结构印象深刻。作者注意到 ChatGPT 提到使用无监督学习来识别模式,这是准确的,并且在 GPT 论文 [12] 中有所概述。另一个有趣的观察结果是,ChatGPT 将最后阶段描述为“测试和优化过程”,而没有提及强化学习或其他细节。
03 ChatGPT 的应用
尽管最近才发布到公共领域,但ChatGPT已经获得了大量的研究关注。在本节中,作者描述了最近研究ChatGPT用于各种研究和应用的工作。Thorp[14]对ChatGPT对教育、文学和科学写作等研究主题的反应进行了定性评估。当被要求完成一部经典戏剧中的一个场景时,ChatGPT提供了一篇有趣的文章。在教育方面,ChatGPT可以提供真实的答案,但在撰写论文方面还有一段路要走。在另一项研究[15]中,研究人员被要求区分ChatGPT和人类撰写的科学论文摘要。这一结果令人惊讶,因为人类评估人员只确定了由ChatGPT生成的68%的摘要。De Angelis等人[16]讨论了根据ChatGPT对语言模型的评估,并强调了医学和公共卫生领域潜在的伦理和实践挑战。主要挑战包括人工智能驱动的错误信息或“信息传播”的可能性,这些信息通常很难辨别。
在医学和公共卫生领域,ChatGPT已经被探索用于各种应用。Khan等人[17]讨论了ChatGPT在医学教育中的几个潜在应用,包括个性化学习和生成案例研究。作者还指出,ChatGPT可以用于临床管理,用于文档和决策支持。Rao等人[18]评估了ChatGPT在放射学中提供临床决策支持的有效性。作者向ChatGPT提供了文本提示,如“对于'变异乳腺癌症筛查。平均风险女性:乳腺癌终生风险<15%的女性。',确定最合适的单一成像程序”,以评估其在乳腺癌症筛查和乳腺疼痛检测中的功效。
ChatGPT在前一项任务中表现相对较好,有88.9%的正确反应,但对乳房疼痛的正确反应仅为58.3%。还讨论了ChatGPT和生成人工智能在帮助泌尿科医生方面的作用[19]。ChatGPT主要可以帮助泌尿科医生完成低复杂度的任务,让他们有更多的时间专注于患者。Hulman等人[20]利用ChatGPT回答有关糖尿病的常见问题,并要求医护人员区分人类和ChatGPT生成的答案。作者发现,评估人员在59.5%的时间内能够正确识别ChatGPT生成的答案。作者还得出结论,尽管ChatGPT没有接受专门的医学数据培训,但它具有临床知识,可以识别有关疾病管理的信息。生成关于特定主题的医学报告在药学教育中可能很有用。为此,Zhu等人[21]促使ChatGPT撰写了一篇关于“基于脂质的药物递送系统”的小型综述。作者得出结论,ChatGPT可以很好地构建主题,并为读者提供有意义的结论。然而,由于缺乏可靠的引文,准确性存在疑问。Shen等人[22]总结了ChatGPT在医学中的其他潜在使用案例和意义。
研究人员还调研了ChatGPT是否可以回答医学考试问题。Kung等人[23]测试了ChatGPT在美国医学执照考试中的表现,该考试由美国医学执照所需的三项标准化考试组成。在没有来自人类的专门输入条件下,ChatGPT以60%的准确率通过了考试。任何包含视觉信息的问题,如中间图像,都被删除了。研究结果证明了ChatGPT在医学教育和临床决策辅助方面的潜力。然而,在中国国家医疗许可证考试中,ChatGPT的表现要低得多,有45.8%的回答正确[24]。在眼科学中,ChatGPT使用眼科知识评估项目的问题进行了测试,该项目包含两项考试,准确率分别为55.8%和42.7%[25]。对于美国心脏协会的基本和高级心血管生命支持检查,ChatGPT的表现低于84%的通过线[26]。然而,它能够提供合理精度的详细答案,这使它成为自学和考试准备的潜在有用工具。Mbakwe等人[27]认为,ChatGPT在回答医学考试方面的成功可以归结为这些考试的本质是死记硬背,而不是测试分析和批判性思维。
聊天机器人备受期待的应用之一是在教育领域。人工智能和技术可以在教育的几个方面发挥作用,包括个性化学习[28]。在这种情况下,ChatGPT可以提高学生的参与度,提供体验式学习,并帮助教育工作者评估考试和内容准备[29]。几位研究人员将他们的研究重点放在了ChatGPT对教育的影响上([30],[31],[32],[29])。ChatGPT在教育中的潜在问题包括反应偏见([31][32])、作弊[30]、私人数据泄露([31][22])和透明化[32])。聊天机器人也可以有效地为同伴辅导做出贡献。Pardos和Bhandari[33]发现,ChatGPT在初等和中级代数主题中提供的70%的提示可以为学生带来积极的学习收益。Frieder等人[34]评估了ChatGPT在帮助数学家完成问答和寻找定理等任务方面的数学能力。研究人员发现,ChatGPT的数学水平低于普通研究生的水平。公众担心ChatGPT被用于剽窃,有必要创建检测此类剽窃的工具。为此,Khalil和Er[35]试图利用ChatGPT作为剽窃检测工具,并发现ChatGPT创建的响应通常不会被其他剽窃检查人员所检测到。与此同时,当ChatGPT被要求检查写作是否是自己生成的时,它的表现比其他抄袭检测软件要好。Yang等人[36]探讨了ChatGPT总结书面文本的能力,发现ChatGPT的表现与现有的基于Rouge分数的微调方法不相上下。作者还强调,目前5000的最大输入token长度是评估ChatGPT文本汇总能力的一个限制。ChatGPT能提高学生作文水平吗?为了回答这个问题,Basic等人[37]对使用ChatGPT的对照组和实验组的9名学生进行了一项研究。作者得出结论,ChatGPT并不一定能提高论文质量,因为对照组在大多数标准上都优于实验组。
Bang等人[38]评估了ChatGPT在逻辑推理和常识推理等十项推理任务上的有效性。作者发现,ChatGPT在演绎推理任务上表现相当好,但在归纳推理上表现极差。ChatGPT在常识推理方面也做得很好。例如,ChatGPT被问及以下问题;请判断这个谓词是(可能)可信还是不可信:“刀砍石头”。对此,它的回答是:刀能砍穿石头是不可信的。刀具是用来切割食物、纸张或木材等较软的材料的。岩石比这些材料坚硬得多,刀无法在岩石上留下凹痕,更不用说把它砍了。
ChatGPT在新闻和错误信息检测方面仍然是一个潜在的有益工具,尤其是在参考文献和事实核查方面。在新冠肺炎大流行期间,疫苗错误信息导致社交媒体对疫苗犹豫不决[39]。Sallam等人[40]对ChatGPT对疫苗阴谋论和强制接种的反应进行了描述性分析。研究发现,ChatGPT对阴谋论不屑一顾,但通过强调利弊,为疫苗授权提供了不同的意见。
在软件开发中,ChatGPT可以用于辅助和软件测试。Jalil等人[41]通过向ChatGPT提出教科书问题来评估其在软件测试方面的能力。在这种情况下,结果并不乐观,因为ChatGPT只能正确回答37.5%的问题。Jiao等人[42]评估了ChatGPT在几个基准集上的翻译性能。在高资源的欧洲语言中,ChatGPT的性能与谷歌翻译等商业应用程序不相上下。然而,对于低资源或远程语言,性能明显较差。在这一点上,让作者询问ChatGPT在各个领域的潜在用途。
Q3 ChatGPT,你可以以什么方式用于医疗保健、教育和研究?
ChatGPT: 作为一个人工智能语言模型,我可以在医疗保健、教育和研究中以各种方式使用。以下是一些例子:
在医疗保健领域:
1)医疗诊断和治疗:可以训练人工智能语言模型来分析医疗数据,如医疗图像、电子健康记录和其他患者信息,以协助医疗诊断和处理。这可以帮助医疗保健专业人员就患者护理做出更准确、更明智的决定。
2) 患者互动:人工智能语言模型可用于帮助患者与医疗保健提供者互动,并为他们提供有关健康状况、治疗方案和药物说明的信息。
3) 医学研究:人工智能语言模型可以帮助研究人员处理和分析大量的医学数据,并确定疾病爆发、药物疗效和患者结局的模式和趋势。
在教育领域:
1)语言学习:人工智能语言模型可以通过为语言学习者提供个性化反馈、练习和对话模拟,帮助他们提高语言水平。
2) 教育内容创建:人工智能语言模型可用于生成教育内容,如测验、抽认卡和学习指南,这些内容是为满足个人学习者的需求而定制的。
3) 学术研究:人工智能语言模型可用于分析学术文本,并生成摘要、见解和建议,帮助研究人员获得新的见解和发现。
在研究领域:
1)数据分析:AI语言模型可用于分析来自各种来源的大量数据,并确定人类研究人员不容易看到的模式,趋势和相关性。
2)文本挖掘:AI语言模型可以帮助研究人员从大量非结构化文本数据(例如研究论文,新闻文章和社交媒体帖子)中提取相关信息。
3)研究合作:AI语言模型可以通过提供实时翻译服务,自动校对和编辑以及内容摘要来帮助研究人员相互合作。
Q4 新闻和软件开发领域怎么样??
在新闻学领域:
1)新闻写作和摘要:人工智能语言模型可以用于自动生成新闻文章和摘要,为记者和新闻机构节省时间和资源。
2) 事实核查:人工智能语言模型可以帮助对新闻报道进行事实核查,并验证所提供信息的准确性。
3) 个性化:人工智能语言模型可以根据个人读者的兴趣、阅读历史和位置,帮助他们个性化新闻内容
在软件开发领域:
1)聊天机器人:人工智能语言模型可以用来为聊天机器人提供动力,聊天机器人可以与用户互动,并用自然语言回答他们的问题。
2) 代码生成:可以使用人工智能语言模型自动生成代码,减少软件开发所需的时间和精力。3) 漏洞检测:人工智能语言模型可用于检测代码中的漏洞和错误,提高软件应用程序的质量和可靠性。
Q5 您还可以在哪些领域使用?
ChatGPT: 作为一个人工智能语言模型,我可以用于医疗保健、教育、研究、新闻和软件开发之外的广泛领域。以下是几个例子:
1)客户服务:人工智能语言模型可以用来为聊天机器人和虚拟助理提供动力,为用户提供客户服务和支持
2)金融服务:人工智能语言模型可用于分析金融数据和检测欺诈行为,并为个人提供个性化的金融建议。
3)营销和广告:人工智能语言模型可以帮助营销人员生成广告文案和内容,分析客户情绪和行为,并为个人用户个性化营销活动。
4)法律服务:人工智能语言模型可用于分析法律文件,并为个人和企业提供法律建议。
5)社交媒体:AI语言模型可用于分析社交媒体内容,监视在线对话以及检测用户行为的模式和趋势。
6)游戏:AI语言模型可用于为视频游戏生成对话和叙事内容,以及游戏中的Power Virtual Assistant和聊天机器人。
7)运输:AI语言模型可用于为车辆的语音助手提供动力,并帮助驾驶员导航和控制各种车辆系统。
8)机器人技术:AI语言模型可用于实现人类与机器人之间的自然语言互动,并帮助机器人理解和响应人类的命令和请求。
ChatGPT因其在撰写科学文章方面的潜在用途而引起了很多人的关注。根据Stokel Walker[43]的说法,有四篇论文将ChatGPT列为其写作贡献的合著者。然而,像《科学》这样的主要出版商已经排除了将人工智能聊天机器人列为合著者的可能性,而包括Taylor&Francis在内的其他出版商正在审查他们在这个问题上的政策。包括《韩国放射学杂志》在内的几家期刊都发表了政策,拒绝任何来自ChatGPT或其他人工智能模型的共同作者的贡献[44]。另一方面,其他期刊发表了指导方针,建议承认用于研究的任何人工智能工具,但不允许将其列为合著者([45],[46])。研究人员还呼吁期刊澄清他们的论文中包含人工智能产生的内容的比例[47] ,并发布人工智能在写作论文中的使用指南[48]。
Korinek [49]探索了像 ChatGPT for Economic research 这样的语言模型的潜在用例。作者认为,研究人员可以通过使用语言模型来完成编辑和生成标题等任务,从而提高工作效率。Chen [50]讨论了在科学写作中使用人工智能工具的一些伦理问题和潜在好处。作者认为聊天机器人可以帮助母语不是英语的作家。论文由作者用中文撰写,用 ChatGPT 进行总结,并通过人工智能工具翻译成英文。Aydın 和 Karaarslan [51]利用 ChatGPT 撰写了一篇关于数字孪生在医疗保健中的作用的文献综述。尽管结果令人鼓舞,作者发现 ChatGPT 在复述句子时在抄袭检查器上有显著的匹配。Dowling 和 Lucey [52]发现 ChatGPT 在产生合理的研究想法、文献综述和测试框架方面是有效的。他们还指出,如果加入领域专门知识作为投入,研究质量将大大提高。虽然 ChatGPT 可能会加速科学论文的研究和撰写,但应该有人为的监督和事实核查,因为像 ChatGPT 这样的语言模型可能会产生误导性信息([53] ,[54] ,[55] ,[56])。下表1总结了几个领域中使用 ChatGPT 的现有工作。
表1 ChatGPT 在现有工程中的应用
04 ChatGPT的局限性
ChatGPT无疑具有多样化和有趣应用的潜力。但是,用户应该考虑当前模型的局限性。在本节中,作者概述了ChatGPT当前的一些限制。
ChatGPT听起来可能很有趣,也很有说服力,但不要相信它的话!事实上,ChatGPT在形成有意义的对话句子方面的能力令人印象深刻,但它可能经常会产生“幻觉”回应[56]。因此,强烈建议对来自ChatGPT的任何响应进行验证和事实核查。
ChatGPT在简单的推理、逻辑、数学和呈现事实信息方面会出错[57]。预计将于2023年某个时候发布的下一个版本GPT-4的很可能会显著改进ChatGPT。据多位消息人士透露,GPT-4网络将比其前身复杂得多,包含约100万亿个参数。相比之下,GPT-3模型由1750亿个参数组成。
ChatGPT目前在处理最多5000个文本token作为输入方面受到限制。虽然这在大多数应用程序中不是问题,但在文本摘要等任务中可能会很有挑战性。此外,ChatGPT的当前接口不允许上传图像或音频文件。ChatGPT可以基于文本提示生成视觉图像的代码表示,但其绘图技能目前有限[38]。在这种情况下,研究人员最近引入了一种在多模态语料库(如图像字幕对)上训练的多模态语言模型,该模型可以感知一般模态[58]。多模式系统可以提供应用程序,例如通过文本提示生成图像和从流行音乐中分离词干。
ChatGPT倾向于给出冗长而详细的回答,除非明确要求不要这样做。此外,ChatGPT表达的情绪比普通人少,而且往往更客观[59]。因此,ChatGPT无法取代对人际关系的需求,也无法成为你的朋友!同样,它也不能用于需要亲密人际关系的个人治疗或咨询。
虽然 ChatGPT 可以为您提供2021年9月之前发生的事件的信息,但是不要指望它会给您提供最新的消息!当被问及土耳其最近发生的地震时,ChatGPT 回答说: “我很抱歉,但作为一个人工智能语言模型,我无法获得来自未来的信息。”。据我所知截止日期是2021年9月,2023年土耳其没有发生任何大地震。然而,地震可能在任何时候发生,重要的是要准备和了解潜在的风险和安全措施。’
Q6 嗨,ChatGPT,您的局限性是什么?
1)有限的上下文: 虽然我能够理解和回应广泛的主题和问题,但我的回应仅限于问题或陈述中提供的信息和上下文。除了给定的信息,我没有能力理解上下文。
2)缺乏情感和同理心: 我没有情感,我不能同情用户或理解他们的感受。
3)无法解释非语言线索: 作为一个人工智能语言模型,我没有能力解释非语言线索,如肢体语言或面部表情,这是人类交流中必不可少的。
4)对数据质量的依赖: 我的回答只能和用来训练我的数据一样好。如果用来训练我的数据是有偏见或不完整的,我的回答也可能是有偏见或不完整的。
5)不能执行物理任务: 我是一个语言模型,没有物理身体,所以我不能执行物理任务或以任何方式与物理世界交互。
05 结束语: 对伦理和隐私问题的考虑
在本文中,作者提供了一个聊天机器人的历史发展概述。此外,还研究了使 ChatGPT 得以出现并取得成功的重大技术发展。然后,描述了 ChatGPT 在几个领域和应用中的潜力。在医疗保健中,ChatGPT 可用于医疗筛查、回答一般问题和准备考试。在教育中,ChatGPT 可用于辅导和检测剽窃行为。ChatGPT 还可以帮助研究人员进行写作、总结信息和翻译。然而,关于 ChatGPT 还有许多道德和隐私问题需要解决。例如,一些用户报告了 ChatGPT 的反馈,其中包含种族和性别偏见。此外,鉴于 ChatGPT 的有效性,它可能被用于教育中的不道德目的,包括作弊。在研究中,ChatGPT 提出了有关版权和剽窃的伦理问题。在隐私问题方面,ChatGPT 接受了超过3000亿字的训练,可能包含互联网用户的个人信息。最后,ChatGPT 继续改进用户交互,但包含个人信息(如联系人)的提示可以由模型处理,甚至可以学习。
本文转自 AI生成未来 ,作者:AIGCer