人工智能(AI)已成为我们日常生活中不可或缺的一部分。特别是AI会话代理(Conversational Agents),如Siri、Alexa和其他聊天机器人,它们通过提供信息、娱乐和陪伴,极大地丰富了我们的数字体验。但是公众对这些AI代理的看法却因文化背景而异,这种差异对于AI技术的设计、开发和全球推广具有重要意义。
最近的一项研究《Understanding Public Perceptions of AI Conversational Agents: A Cross-Cultural Analysis》深入探讨了美国和中国两个文化背景下公众对AI会话代理的看法。研究团队通过分析近一百万条社交媒体帖子,揭示了两国公众在讨论话题和对AI代理感知上的显著差异。这项研究不仅提供了对AI会话代理公众感知的新见解,而且对于AI技术的跨文化适应性提出了重要建议。
研究发现,中国用户倾向于将AI代理人格化,将其视为具有情感的伙伴,而美国用户则更多地将AI代理视为完成任务的工具。这种差异反映了文化价值观和社会结构对AI技术感知的深远影响。例如,中国的技术拟人主义文化倾向可能鼓励用户与AI代理建立情感联系,而西方文化中人与非人实体的明显区别则可能导致美国用户对AI代理持更实用主义的态度。
研究还指出,除了文化差异外,政治经济环境和技术系统也在塑造公众对AI会话代理感知中发挥作用。在中国,政府政策和战略以及主流媒体对AI的描述可能导致公众讨论更加抽象和战略性。相比之下,美国的讨论更多关注实际市场应用和商业发展,反映了市场力量和企业家精神在塑造新兴技术公共话语中的作用。
此外,研究强调了在AI会话代理设计中考虑文化和结构性因素的重要性。例如,中国用户对具有物理实体和语音特性的AI代理的温暖和能力感知更高,这表明在为中国市场设计AI代理时,开发者应考虑加入这些特性。然而,这些设计选择可能不适合西方消费者,因此需要采取具有情境意识的设计方法。
人工智能会话代理(AI Conversational Agents)是一种先进的技术,它能够通过自然语言处理(NLP)与人类进行交流和互动。这些代理的设计旨在模仿人类的交流方式,提供信息、解答问题、执行任务,甚至在某些情况下提供陪伴。随着技术的进步,CAs的应用范围不断扩大,它们的智能程度和互动质量也在不断提高。
本篇论文的作者来自于新加坡国立大学的Zihan Liu、Han Li、Renwen Zhang、Yi-Chieh Lee和香港大学的Anfan Chen,他们是跨文化通信和人工智能领域的专家,他们通过深入的社交媒体分析,探索了美国和中国公众对CAs的不同看法。作者的研究背景为本文提供了坚实的理论基础和丰富的实践经验,使得研究结果具有高度的可靠性和深远的影响力。
论文的创新点在于其跨文化的研究视角和综合的分析方法。作者不仅考虑了文化价值、政治经济和技术系统等多种因素如何共同影响公众对CAs的感知,而且还提出了“温暖优先”的设计方法,为未来CAs的开发提供了新的指导原则。
背景介绍
当前AI会话代理在不同文化中的应用现状呈现出多样化的趋势,在一些文化中,CAs被广泛用于提供客户支持和个人助理服务,而在其他文化中,CAs则更多地用于教育和娱乐。这种差异不仅反映了不同文化对技术的接受度和应用方式的差异,也揭示了CAs设计和功能的多样性。
跨文化分析在AI研究中具有重要意义,它有助于揭示不同文化背景下用户对CAs的期望和需求。然而这也带来了挑战,因为文化差异可能导致用户对CAs的感知和使用方式产生根本性的不同。
这项研究着重于文化背景和会话代理(CAs)不同类型的技术特性,以深入了解人们在跨文化和跨特性层面上对CAs的讨论和看法。研究表明,人类对实体的感知通常涉及复杂的认知和情感过程,尤其是在遇到像聊天机器人这样的新颖和复杂技术时。因此,使用多维框架来避免在捕捉人们对CAs的看法时过度简化或误解是必要的。在评估人类的感知和认知时,温暖度、能力和情感价值通常被认为是表征社会认知不同方面的关键维度。温暖度是评估非人类实体人性化程度的重要方面,与CA对用户的情感价值相关,并可以预测信任、可信度和与CAs互动的意愿。另一方面,能力与实用和功能性方面密切相关,表示CA根据其知识、技能和沟通能力有效响应请求的程度。能力经常被纳入功能性和可用性评估,并与客户满意度和促销信息的说服力相关。相比之下,情感价值代表了人们对CAs的感知和经验背后的更广泛情感基调,有助于形成对CAs感知的总体印象。
研究方法和数据来源
论文中使用了社交媒体分析作为主要的研究方法。通过分析Twitter和微博上与CAs相关的数百万条帖子,作者能够捕捉到公众对CAs的真实看法和情感态度。数据收集过程涉及复杂的数据清洗和筛选工作,确保分析的准确性和相关性。分析工具包括自然语言处理软件和情感分析算法,这些工具帮助研究者从大量的文本数据中提取有价值的信息。
CAs作为AI应用的一个独特部分,也引起了复杂和矛盾的态度和情绪。这些软件程序能够通过基于文本和/或基于语音的界面与用户进行自然语言交流。它们在客户支持、医疗保健、金融、智能家居和其他各个领域的广泛整合,使它们不仅成为便利工具,也成为审查的对象。尽管对一般AI和机器人学的讨论很广泛,但对公众对CAs的看法的研究却明显不足。这表明了一个重要的研究空白,特别是考虑到CAs在数百万人的日常生活中的广泛应用。现有研究虽然有价值,但通常范围较窄,针对的是特定领域中CAs的看法,如客户服务、新闻业和医疗保健。此外,研究通常侧重于特定的CA产品,如Alexa、Replika和小冰。因此,公众对CAs的全面理解仍然未被充分探索。
要深入了解人们对CAs的看法,需要有效理解这些代理如何被感知和解释。从历史上看,温暖(友好与不友好)、能力(聪明与愚蠢)和价值(好与坏)一直是概念化社会感知的关键维度。其中,温暖和能力是评估对个人和群体的社会认知的普遍标志。简而言之,温暖衡量与感知意图相关的特征,如真诚和可信度,而能力评估与感知能力相关的属性,如智力和效能。许多研究强调了它们在解释社会感知的大部分变异中的主导作用,从接近-回避倾向到理解动机。虽然最初是为了人类认知而设定的,但温暖和能力也被用来理解人们对非人类实体的看法,如机器人。
研究表明,文化、规范、经验、教育、认知推理风格和依恋等因素会影响用户对AI代理的反应。跨文化价值结构的研究揭示了美国和阿拉伯联合酋长国(UAE)用户在与算法驱动的聊天机器人新闻互动时的明显差异,美国用户主要关注与公平、问责和透明度(FAT)相关的程序性维度,而UAE用户则更被算法的功能性能所吸引。此外,日本用户优先考虑聊天机器人的功能性质,与重视非功能性算法方面的美国用户形成对比。这些文化差异不仅仅体现在感知上,还包括对AI聊天机器人的不同担忧和优先事项。这种差异强调了在探讨公众对CAs的感知和讨论时需要跨文化视角的必要性。
研究提出的第一个研究问题是:RQ1: 美国和中国之间在CAs的(a)讨论主题和(b)公众感知(即温暖度、能力和情感价值)方面有何差异?
除了文化,CAs的分类也在塑造公众感知方面发挥着重要作用。CAs根据其设计、互动风格和功能的不同,呈现出多种形式。以往的人机交互(HCI)工作提出了多种框架来对CAs进行分类。例如,Grudin和Jacques将聊天机器人根据其互动的深度和广度分类为三种类型:虚拟伴侣、智能助手和任务导向型聊天机器人。Følstad等人建议根据互动持续时间(短期和长期)和控制点(用户驱动和聊天机器人驱动)进行分类。Hussain等人深入到设计技术和方法,引入了四个设计维度来区分CAs:互动模式、知识领域、目标和设计方法。随着非具象会话代理和对话系统越来越多地整合到如机器人和具象会话代理(ECAs)等多功能互动平台中,这些CAs的物理和视觉表现为CA的特征增加了另一个关键层面。Rzepka和Berger指出了人类外观和物理体现在表征AI系统时的重要性。这些非言语属性提供了重要的社会存在线索,可能会影响用户如何感知和与CAs互动。正如Modality-Agency-Interactivity-Navigability(MAIN)模型所建议的,界面线索通过触发关于互动性质和实质的认知启发式,塑造用户感知。
跨文化公众感知分析
美国和中国公众对AI会话代理的看法存在显著差异。美国用户倾向于强调CAs的实用性和效率,而中国用户则更加重视CAs的社交和情感功能。这些差异不仅反映了文化价值观的不同,也与两国在政治经济和技术系统方面的差异有关。
图片
图1:美国和中国公众对CA的看法注:中的颜色 图表示联想的方向,绿色表示倾向于积极(温暖、能干、积极),红色表示倾向于消极(寒冷、无能、消极)。颜色的深度影响关联的强度,浅色表示更大的中性,深色表示更极端的关联。
文化价值、政治经济和技术系统共同塑造了公众对CAs的感知。例如,中国用户对CAs的积极态度可能受到政府对AI技术支持的环境和主流媒体的积极报道的影响。相比之下,美国用户的态度则更受市场力量和商业发展的影响。
在个人互动与体验方面,这一元主题涵盖了从个人角度出发的与CA相关的讨论,包括用户与CA的实际互动及其相关的体验和情感。在这一元主题中,存在三个不同的子主题:“任务导向互动”、“社交导向互动”和“体验与观点”。在美国,任务导向互动更为突出,占推文的44.2%,而在中国,这一数字要低得多,仅占微博帖子的10.9%。这种差异表明,美国用户主要将CAs用于功能性和实用性目的,依赖它们简化日常任务。相比之下,中国用户更倾向于社交导向互动,他们以更多对话和情感表达的方式与CAs互动,代表性术语包括“调情”、“笑话”和“戏弄”。这些社交导向互动在中国的讨论中占16.8%,而在美国的推文中仅占3.7%。此外,还发现了大量与用户表达他们对CA的情感、态度和想法(无论是积极还是消极)相关的帖子。这被归类为“体验与观点”,顶级术语包括“有用”、“可爱”和“爱”。中国用户更倾向于分享此类体验和观点,34.3%的帖子属于此类别,而美国用户的推文中这一比例为17.3%。
在文化和技术在塑造公众对CAs感知方面的作用和相互作用上,一个重要发现是美国和中国人民与CAs互动的显著差异。中国用户倾向于以更社交和情感表达的方式接近CAs,而美国用户则采取更注重任务的互动方式。有趣的是,在中国用户中,大量讨论集中在智能助手(如Siri)的享乐性和社会情感使用上,尽管这些CAs最初是为实用目的而设计的。这一趋势的一个可能解释是植根于中国文化的精神基础,特别是技术拟人主义的概念。这种信念与许多其他东亚文化共享,并围绕着非人类实体(包括机器或人工智能)可以拥有灵魂或精神的想法。因此,技术拟人主义的文化价值可能鼓励中国用户将CAs,特别是那些具有更多拟人特征的CAs,视为具有情感的实体,使它们能够形成情感联系并成为能够建立融洽关系的好伙伴。这与西方个体的观点形成鲜明对比,后者通常将CAs等非人类代理视为旨在服务人类目的的工具。在西方文化中,人类被视为与非人类实体有明显区别的独特存在。早期的Clark等人的研究也证实了这一观点,表明西方参与者讨论与代理进行对话的方式与与其他人进行对话的方式有显著不同。特别是,与代理的对话始终以功能性术语描述,强调了这些互动的实用性质。
图2:公众对CA技术特征的看法:美国与中国。
通过这样的分析,作者不仅揭示了文化和结构性因素如何影响公众对CAs的感知,还为未来CAs的设计和开发提供了宝贵的见解。这些见解有助于开发者在不同文化背景下设计出更符合用户需求和期望的CAs。
论文创新点解读
在《Understanding Public Perceptions of AI Conversational Agents: A Cross-Cultural Analysis》一文中,作者提出了一个独特的设计理念——“温暖优先”方法。这种方法强调在设计会话代理时,应优先考虑其能够激发用户情感价值和积极情感的能力。研究表明,用户对CAs的温暖感知与他们的积极情感之间存在稳定的正相关关系,这种关系超过了能力感知与情感价值之间的关联。因此,设计师应当集中于增强CAs的亲和力和情感交互能力,以提升用户体验。
结构性因素,如文化背景、政治经济环境和技术发展水平,对AI会话代理的接受度和用户感知有着深远的影响。例如,中国用户对CAs的积极态度可能受到政府对AI技术支持的环境和主流媒体的积极报道的影响,而美国用户的态度则更受市场力量和商业发展的影响。
在人机交互领域,物理体现涉及技术实体或代理在物理世界中拥有的物理存在或表征程度。这包括为数字或虚拟实体提供一个有形的、互动的形式,以促进与环境和用户的互动。Von der Putten等人认为,一个自主代理的社会影响与它展示的行为现实水平密切相关。会话代理可能是有体现的或无体现的。Kontogiorgos等人的工作将体现概念应用于社交机器人和智能扬声器,并探讨了不同CA体现对用户对失败的感知及其对CAs的后续行为的影响。值得注意的是,他们发现用户在感知智能和社会存在方面将社交机器人体现评价得比智能扬声器更高。当体现的形式是物理的而不是虚拟的时,体现的效果更加明显。Li的33项实验研究综述发现,物理呈现的机器人代理比虚拟角色中的远程呈现被更积极地感知。
因此,对话焦点、对话模式、类人外观和物理体现代表了定义CA在其对话和表征中的重要维度。探索公众对CAs的感知如何在这些定义特征中变化,可以帮助研究人员理解技术特性如何在塑造社会认知中发挥作用。据此,我们提出以下研究问题:RQ2: 人们对CAs的感知如何因1) 对话焦点;2) 对话模式;3) 类人外观;和4) 物理体现而异?基于这三个研究问题,我们提出了分析框架(见图3)
设计建议和实际应用
为了探讨公众对会话代理(CAs)的温暖度、能力和情感价值的感知(RQ1(b)、RQ2、RQ3),研究者使用了词嵌入技术来检查个体将CAs与温暖、能力和情感价值相关的词汇和概念联系在一起的程度。这种方法已经在先前的研究中被广泛应用于检查人们的社会认知和态度,显示出高性能和准确性。
为了回答关注CAs技术特征差异的RQ2和RQ3,研究者对数据语料库中提及的所有CA产品进行了分类,并根据它们的对话焦点、对话模式、类人外观和物理体现将它们分为不同类型。表1总结了美国和中国的CA产品及其分类。
在词嵌入中使用的关键算法是S-WEAT,这是Word Embedding Association Test(WEAT)的改编版本,旨在测量单一类别与一对相对属性之间的相对关联度。
每个S-WEAT分析都将两个双极属性(例如,“温暖”对“冷漠”)与与CAs相关的单一类别(例如“具有类人外观的CAs”)进行比较。具体来说,研究者首先计算了CA类别与每个属性之间的平均余弦相似度。接下来,计算了两个平均余弦相似度得分之间的差值。正的结果值表明组类别与正属性(例如积极、温暖和能力)之间的相似度更强,而负值表明组类别与负属性(例如消极、冷漠和无能)之间的相似度更高。为了确保可比性,将这些差值标准化到-2到+2的范围内。这种标准化是通过将差值除以汇总的标准差来实现的。标准差是根据每个属性词向量在两个属性类别中的平均余弦相似度得分计算的。下面的公式展示了S-WEAT统计量的计算方法:
图片
设A和B为两组大小相等的相对属性类别词向量,X为社会群体类别词向量集。令cos(θ, γ)表示两个向量θ和γ之间角度的余弦。然后S-WEAT统计量定义为:
图片
在计算过程方面,技术上,研究者在以CA为中心的语料库中使用Python的Gensim库通过Word2Vec训练了自定义词嵌入模型。这些模型将复杂的词汇语义压缩到有限的维度空间中。然后应用S-WEAT。代表六个属性类别的字典(参见附录以获取完整字典和样本帖子)来源于先前的研究。在我们训练的词嵌入模型中映射属性词和CA产品并获得代表它们的向量后,我们对这些向量执行了S-WEAT。数值结果代表了某一类别的CA产品与某一属性之间的关联。如果值大于零,则随着绝对值的增加,与积极属性(即温暖、能力或积极)的相关性更强。相反,如果值小于零,则随着绝对值的增加,与消极属性(即冷漠、无能或消极)的相关性更强。
根据论文的研究结果,设计师在为不同文化背景的市场开发CAs时,应考虑以下建议:
- 对于中国市场,设计师应考虑加入更多的语音特性和物理体现,以增强CAs的温暖和能力感知。
- 对于美国市场,设计师应关注CAs的实用性和任务执行能力,同时确保界面简洁且易于使用。
将研究成果应用于实际的AI会话代理开发时,开发者应采用用户为中心的设计方法,密切关注用户的挪用和重新利用技术的方式,以便不断迭代和优化产品。
论文局限性和未来研究方向
论文的局限性主要体现在数据来源和用户类型的考虑上。研究依赖于中国的微博和美国的Twitter数据,可能未能全面反映所有用户群体的看法。未来的研究可以采用跨平台的方法,并结合社交媒体数据分析和通过调查或访谈收集的数据,以获得更全面的视角。
结论
在研究美国和中国公众对CAs话语和感知的差异时,作者发现了证据,突出了文化和其他结构性因素在塑造人们如何参与、感知和评估CAs方面的影响力。这些广泛的外部背景也与CAs的特定技术特性相互作用,影响与温暖、能力和整体情感基调相关的感知。我们发现,美国人更多关注实用和情境化的使用,而中国用户更倾向于将CAs用于享乐性互动。总的来说,中国人对CAs持有更积极的态度,而美国用户展现了温暖和威胁感知的矛盾混合。研究强调了在不同文化和国家背景下优先考虑不同CA特性的重要性,以适应用户的不同偏好和行为。我们指出了优先考虑温暖感知、采用情境意识设计和从挪用中学习对CA设计成功的价值。
论文的主要发现强调了文化和结构性因素在塑造人们如何参与、感知和评估CAs方面的重要性。这些发现对AI领域的贡献在于,它们提供了一个全新的视角来理解和设计未来的AI会话代理。跨文化理解在全球化AI应用中的重要性不容忽视,它要求设计师和开发者在开发CAs时,不仅要考虑技术的进步,还要考虑文化的多样性和复杂性。这篇论文为全球化AI应用的设计和开发提供了宝贵的指导和启示。(END)
参考资料:https://arxiv.org/abs/2402.16039