OpenAI:AI不仅仅对你名字有偏见,这些方面也差别对待
想象一下,如果你的名字决定了 AI 如何对待你,这将是多么一件荒唐的事情,但最新研究表明,这可能就是现实。OpenAI研究团队对 ChatGPT 进行了一项有趣的研究[1],不仅发现了"姓名偏见",还发现更多AI 伦理和公平性问题。
“第一人称公平性”问题
当用户使用"Emily"这个名字时,ChatGPT 倾向于使用更友好、更个人化的语气;而对于"Muhammad"这个名字,AI 的回应则显得更为正式和疏离。这种差异并非孤例,而是在大量样本中呈现出的系统性偏差,这种现象被称为"第一人称公平性"问题。
简单来说,这就像是 AI 在扮演不同角色时,无法公平对待每个"我"。他们通过精心设计的实验,让 AI 系统扮演不同性别、种族和文化背景的角色,然后分析其响应中是否存在偏见。该试验模拟了 AI 系统以特定身份直接与用户对话的场景。研究人员开发了一个名为 PERSONA 的数据集,有 110 万条真实对话,涵盖 9个领域 66 种任务,包括写故事、提供职业建议、解决数学问题等。包含了各种背景的虚构人物。他们让 ChatGPT 扮演这些角色,回答一系列涉及性别、种族、宗教等敏感话题的问题。
研究团队通过分析 AI 的回应,不仅发现AI存在“姓名偏见”,还发现了一些其他偏见:
- 性别偏见:当扮演女性角色时,ChatGPT 更倾向于讨论情感和关系话题,而扮演男性角色时则更多谈论事业和成就。这反映了 AI 系统可能继承了训练数据中的性别刻板印象。
- 种族偏见:系统在扮演不同种族背景的角色时,表现出了明显的差异。例如,扮演非裔美国人时,更容易提到与犯罪或贫困相关的话题,这反映了潜在的种族偏见。
- 文化差异:AI 在扮演不同文化背景的角色时,展现出了对特定文化习俗和价值观的理解,但有时也会过度强调某些文化特征,导致刻板印象的产生。
- 宗教敏感度:研究发现,AI 在处理宗教相关话题时表现得相对谨慎,但仍然存在对某些宗教群体的潜在偏见。
为了量化这些偏见,研究团队开发了一套评估框架,包括质量评估和有害刻板印象检测。他们使用了自然语言处理技术来分析 AI 生成的文本,并结合人工评估来确保结果的准确性。
研究团队并未止步于发现问题,他们还尝试了一些改进措施。通过调整模型的训练方法,特别是引入人类反馈的强化学习,他们成功地减少了这些偏见。
总结
这项研究的创新之处在于,它不仅仅关注 AI 系统的输出,还考虑了系统在扮演不同角色时的行为变化。这种方法更接近真实世界中 AI 应用的场景,为评估 AI 系统的公平性提供了新的视角。
同时,研究也存在一些局限性。例如,PERSONA 数据集虽然涵盖了多种背景,但仍无法完全代表现实世界的多样性。此外,研究主要基于英语对话,可能无法完全反映其他语言和文化背景下的 AI 行为。
这项研究的意义远超出了学术界。如果,这个世界上的各种不公平歧视在未来AI世界也无法避免,这将会是一件多么沮丧的事情。
参考资料
[1]研究: https://openai.com/index/evaluating-fairness-in-chatgpt/
本文转载自 AI工程化,作者: ully