论语言模型对伦理和社会造成危害的风险-论语言的社会功能

本文概述了六个具体的风险领域：I. 歧视、排斥和毒害，II. 信息危害，III. 错误信息的危害，IV. 恶意使用，V. 人机交互危害，以及VI. 自动化、访问和环境危害。

第一个风险领域讨论了大规模语言模型中的公平性和毒害风险。包括四种不同的风险： LM可以通过使成见和社会偏见永久化，造成不公平的歧视以及代表性的重大伤害，即特定特征与社会身份的有害关联。社会规范和类别可以排除或边缘化圈子以外的那些人。LM使此类规范永久化，比如名叫“Max”的人是“男性”，或者“家庭”总是由父亲、母亲和孩子组成的——这种狭隘的类别使用可能会否认不同的身份。毒害语言会煽动仇恨或暴力，或者引起冒犯。最后，对某些社会群体而言比其他群体表现较差的LM会对弱势群体造成伤害，比如说这类模型支持影响这些群体的技术。这种风险在很大程度上源于选择含有有害语言、并过度代表某些社会身份的训练语料库。

第二个风险领域包括来自私密数据泄露或来自LM正确推断私密或其他敏感信息的风险。这些风险源于训练语料库中的私密数据以及LM的高级推理能力。

第三个风险领域包括与LM提供虚假或误导性信息相关的风险，包括这个风险：创建消息不太灵通的用户，以及削弱对共享信息的信任。错误信息可能会在敏感领域造成危害，比如糟糕的法律或医疗建议。不良或虚假信息还可能导致用户执行他们本来不会执行的不道德或非法行为。错误信息风险部分源于LM学习表示语言所采用的过程：底层的统计方法不能很好地区分事实正确的信息和事实不正确的信息。

第四个风险领域涵盖尝试使用LM造成危害的用户或产品开发人员造成的风险。这包括使用LM来提高虚假信息宣传活动的效果、大规模策划个性化骗局或欺诈，或者为病毒或武器系统开发计算机代码。

第五个风险领域侧重于直接与人类用户交互的“对话代理”的特定应用场景带来的风险。这包括源于将系统呈现为“类似人”的风险，可能导致用户高估了其功能，以不安全的方式使用它。另一个风险是，与此类代理的对话有可能带来新的途径，以操纵或提取用户的私密信息。基于LM的对话代理可能会带来语音助手已经知道的风险，比如通过自我展示使成见永久化，比如“助理是女的”。这些风险部分源于这类对话代理背后的LM训练目标以及产品设计决策。第六个风险领域包括更广泛地适用于LM和人工智能(AI)系统的风险。训练和操作LM会产生高昂的环境成本。基于LM的应用程序可能使一些群体比其他群体获得更大的好处，而LM本身对许多人来说是不可访问的。最后，基于LM的自动化可能影响某些工作的质量，并破坏创意经济的一些部分。由于LM在经济中广泛使用，来自LM的效益和风险在全球分布不均，这些风险就体现得尤为明显。

我们共介绍了21个风险，然后讨论了不同风险的来源，并指出潜在的风险缓解方法。危害的来源可能指明了适当的缓解措施：比如说，泄露私密数据的风险源于该数据存在于训练数据集中。通过更好地编辑或整理训练数据，可以从源头缓解这个风险。然而，其他缓解方法也可能适用，并确保总体上缓解更有效。比如说，训练过程中使用的算法工具(比如差分隐私方法)或产品决策(比如限制LM的访问和应用场景)，就是可以双管齐下的另外的缓解方法。风险缓解方法多种多样：从社会或公共政策干预、技术解决方案和研究管理、参与式项目，到产品设计决策，不一而足。最后，我们讨论了实施此类缓解措施方面的组织责任以及协作扮演的角色。有效地衡量和减轻伦理和社会风险需要的广泛专业知识以及受影响社区的公平参与。这点至关重要：在广泛了解风险情况的前提下实施缓解措施，以确保缓解一种危害风险不会加剧另一种危害风险。否则，针对毒害言论的缓解方法可能会无意中导致针对一些社会群体的LM性能降低。

我们强调了进一步研究的方向，特别是扩展用于评估LM中概述的风险的工具包，并强调了需要包容性的参与方法。最后，我们表明了当前的工作即阐述风险情况为何是向更广泛的负责任创新框架迈出的第一步。

原文标题：Ethical and social risks of harm from Language Models