人类和AI的决策协作：决策问题的表述、解释和评价-51CTO.COM

在人工智能、数据可视化等领域，如何利用信息显示来辅助人类做出更好的决策，是一个重要的研究目标。什么是一个决策问题，以及如何设计一个能够有效评估人类决策的实验，没有一个明确的共识。在这篇文章中，我将为您解读一篇最新的论文，它提出了一个基于统计决策理论和信息经济学的决策问题的定义，以及一个评估人类决策性能损失的框架。

《Decision Theoretic Foundations for Experiments Evaluating Human Decisions》论文的三位美国专家提供信息界面以帮助决策是以人为中心的人工智能（HCAI）、可视化和相关领域研究的共同目标。例如，可视化研究人员强调辅助决策是数据可视化的一个重要目标。同样在以人为中心的人工智能中，大量关于人类决策行为的实证研究被认为“有必要评估人工智能技术在辅助决策方面的有效性，也有必要对人们如何与人工智能互动以做出决策形成基本理解”。

他们主张，通过信息显示对人类决策的研究，为任务确定一组最小的理论承诺是“明确定义的”，也就是说有可能建立规范的行为。幸运的是，现有的理论能够应对这一挑战。统计决策理论和期望效用理论为研究决策提供了一个严格推导且广泛适用的框架。信息经济学将决策问题的信息结构形式化，这可能是由关于如何可视化或解释模型预测的设计选择引起的。

他们综合了统计决策理论和信息经济学中定义明确的决策问题的一个广泛适用的定义，并从数据驱动的界面激发了这种方法在HCAI和相关决策研究中的价值。他们的第一个贡献是建立和激励决策问题必须定义的最小组成部分集，以识别最佳决策，从而识别人类决策中的偏差。使用理性贝叶斯代理的概念，他们展示了只有当研究参与者在理论上能够从他们提供的信息中识别出规范决策时，才能考虑到绩效损失。他们发现在46项现有研究的样本中，有35项研究通过预测显示得出了关于人类决策缺陷的结论，但其中只有6项（17%）是明确的研究任务，因为参与者得到了足够的信息，至少在原则上可以确定最佳决策。他们用例子来说明这些结论的认识论风险，并为实验者提供建议，以提高其研究结果的可解释性。

论文作者背景

这篇论文的题目是《Decision Theoretic Foundations for Experiments Evaluating Human Decisions》，由Jessica Hullman, Alex Kale, Jason Hartline三位来自美国西北大学的计算机科学家合作撰写，于2024年1月25日在arXiv上发表（论文地址：https://arxiv.org/abs/2401.15106）。这三位作者都是人工智能、数据可视化、人机交互等领域的知名学者，他们的研究成果发表在顶级的学术会议和期刊上，如ACM CHI, ACM CSCW, IEEE VIS, ACM EC等。他们的研究兴趣主要集中在如何利用人工智能和数据可视化来帮助人类理解和决策复杂的不确定性问题，如风险评估、预测、推荐等。

论文主要贡献

提出了一个通用的决策问题的定义，包括行动空间、状态空间、评分规则、先验信念、数据生成模型和信号策略等组成部分，以及如何根据这些组成部分来确定最优的行动和期望的效用。

提出一个评估人类决策性能损失的框架，包括先验损失、接收损失、更新损失和优化损失等四种可能的损失来源，以及如何根据实验设计和结果来估计和分析这些损失。

对近年来人工智能辅助决策的研究进行了编码和评估，发现只有很少一部分的研究（17%）向参与者提供了足够的信息来识别规范的决策，而大多数的研究（83%）都存在决策问题的不明确和不完整，导致对人类决策的偏差和缺陷的结论是不可靠的。

理论基础和方法

这篇论文的理论基础主要来自于统计决策理论和信息经济学。统计决策理论是一门研究如何在不确定性条件下做出最优选择的学科，它主要关注的是决策者的偏好、信念和行动之间的关系，以及如何利用数据和信息来更新信念和选择行动。信息经济学是一门研究信息对经济行为和结果的影响的学科，它主要关注的是信息的生产、传播和消费的机制和激励，以及信息的不对称、不完全和不可靠对市场和社会的影响。

这篇论文的方法主要是基于贝叶斯理论和期望效用理论。贝叶斯理论是一种用来描述和推理不确定性的概率理论，它主要关注的是如何根据先验信念和观察到的数据来计算后验信念，即某个假设或事件在给定数据的条件下发生的概率。期望效用理论是一种用来描述和评估风险决策的理论，它主要关注的是如何根据效用函数和概率分布来计算期望效用，即某个行动在不同状态下产生的效用的加权平均值。

决策问题的定义

他们定义了一个决策问题和相应的最优行为标准，以确定相对于该标准的性能损失。他们的定义旨在对人类行为进行受控评估，也就是规范性决策研究。这种评估性研究要求能够确定研究参与者被询问的任何状态的基本事实。行为数据（可以由人类或模拟产生）是在受控条件下收集的，目的是了解信息提供引起的行为。这类研究经常用于描述某些情况下人类表现的质量（例如，人们在战略环境中根据显示器做出决策的程度），根据人类表现对不同的辅助元素进行排名（例如，不同的可视化或人工智能解释策略），或者测试关于人类如何做出决策或什么将帮助他们做得更好的假设（例如，认知强迫功能将改善人工智能辅助决策）。

最优行动和期望效用的计算

给定如上定义的决策问题，他们通过假设代理人在结果不确定的情况下具有一致的偏好并在行动之间做出最佳决定意味着什么，来计算规范（“最优”）决策。因此他们可以将实验参与者的表现解释为试图达到这一标准，并确定表现中的错误（损失）来源。

为此，他们将首先假设代理的偏好可以通过评分规则来概括. 假设他将选择最大化其预期效用（得分）的动作：

图片

描述了主体的信念分布，即主体相信世界状态的概率分布。我们可以将最优行动定义为使代理的预期效用最大化的行动：

图片

具体来说，为了计算决策任务的最优决策，他们首先定义代理在从π: Pr(θ) 或p(θ) 正如我们上面所描述的。每当信号策略未显示时π(θ |u) 直接通过信号，但确实通知θ, 我们假设，在看到信号后，代理根据他们对数据生成模型的了解，使用贝叶斯规则将他们对信号和状态的先前信念更新为后验信念π:

图片

u是一个归一化因子。注意方程3中的定义意味着要计算q(θ)代理人知道。

图片

给定这些后验信念，我们使用方程2来确定完全理性主体为了最大化其预期效用而选择的行动S.

作者的计算框架为人类和人工智能的决策协作提供了一个有用的工具，可以帮助分析和改善人类的决策行为和效果，以及提高人类的决策质量和满意度。他们的计算框架也为决策理论和方法的拓展和深入提供了一个启发和创新的空间，可以探索更多的决策因素和机制，以及更多的决策模式和策略。

人类决策性能损失的评估

使用上述框架的主要动机本质上是认识论的，它们涉及我们对实验结果的了解。为了将人类决策实验中对决策问题的反应解释为错误决策过程的证据，实验必须向参与者提供足够的信息，原则上确定用于判断其行为的规范决策。换言之，实验是否为参与者提供了足够的信息，使他们对决策问题的理解与其规范解释相一致？

他们发现神经网络模型可以重现并超越已有的心理学研究，例如前景理论，基于环境的模型，混合模型等。神经网络模型可以根据不同的假设，自动地学习出不同的风险认知函数，以及它们之间的权重。作者还发现，人类的风险认知函数是非线性的，场景相关的，以及概率和收益之间存在相互依赖的关系。这些发现说明了人类的风险决策是极为复杂的，不能归因于简单的假设。

作者使用了一个简单的指标，来衡量人类决策性能损失的程度，即人类的选择与最优选择之间的差异的平均值。作者发现，人类的决策性能损失在不同的场景中有很大的变化，从0.01到0.5不等。作者还发现，人类的决策性能损失与神经网络模型的预测误差呈正相关，即神经网络模型越难以预测人类的选择，人类的决策性能损失就越大。这说明了神经网络模型可以有效地捕捉人类的风险认知的特征，以及人类的风险决策的不理性和不一致性。

作者的评估框架为人类和人工智能的决策协作提供了一个有用的工具，可以帮助分析和改善人类的决策行为和效果，以及提高人类的决策质量和满意度。作者的评估框架也为决策理论和方法的拓展和深入提供了一个启发和创新的空间，可以探索更多的决策因素和机制，以及更多的决策模式和策略。

实证分析和结果

这篇论文的实证分析主要是对近年来人工智能辅助决策的研究进行了编码和评估，以检验这些研究是否符合决策理论的框架，是否对人类决策的缺陷或损失做出了合理的结论。作者从Lai et al.的文献综述中随机抽取了46篇研究，这些研究都是在2018年至2021年期间发表在ACM或ACL的会议上的，涉及分类或回归问题的人工智能辅助决策的实验。

作者根据以下三个方面对这些研究进行了编码。

决策理论框架的适用性：是否存在一个可以确定的真实状态，以及是否存在一个与状态相关的收益或损失。

人类决策的评估：是否对人类决策的表现或质量做出了评价或判断，例如指出了过度依赖或不足依赖人工智能的现象，或者推测了人类决策的原因或影响因素。

决策问题的明确性：是否向参与者提供了足够的信息来识别规范的决策，包括行动空间、状态空间、评分规则、先验信念、数据生成模型和信号策略等。

作者的编码结果显示，有11篇研究（24%）的任务没有一个可以确定的真实状态，例如主观的音乐或电影推荐或情感识别等，这些研究不适用于决策理论框架。剩下的35篇研究（76%）都对人类决策的表现或质量做出了评价或判断，但是只有6篇研究（17%）向参与者提供了足够的信息来识别规范的决策，而其他的29篇研究（83%）都存在决策问题的不明确和不完整，导致对人类决策的偏差和缺陷的结论是不可靠的。作者还对这些研究的具体问题和改进方法进行了详细的分析和讨论，例如缺乏先验信念的传达、缺乏后验信念的计算、缺乏评分规则的动机和比较等。作者认为，这些问题都源于研究者对决策问题的定义和传达的不足，以及对实验世界和实际世界的关系的不清楚。作者建议研究者在设计实验时，要充分考虑决策理论的框架，要明确地向参与者和读者传达决策问题的所有必要组成部分，以便对人类决策行为进行有效的评估和改进。

未来工作

这篇论文的局限性主要来自于期望效用理论和规范方法的挑战和批评。期望效用理论是一种基于理性和最优化的决策理论，它假设决策者有完全的信息和计算能力，以及一致和稳定的偏好。然而这些假设在实际世界中往往不成立，人类的决策行为可能受到认知、情感、社会、道德等因素的影响，导致偏离期望效用理论的预测。规范方法是一种基于价值和目标的决策方法，它假设决策者有一个明确的价值目标，以及一种评估不同行动对价值目标的影响的方法。然而，这些假设在实际世界中也往往不成立，人类的价值观可能是多元的、动态的、模糊的，而且可能与其他人或社会的价值观存在冲突或协调。因此，这篇论文的框架和方法可能不适用于一些主观、复杂、多目标的决策问题，也可能忽略了一些人类决策的内在价值和意义。

未来工作主要是在以下四个方面进行拓展和深入。

探索其他的决策理论和方法，例如行为经济学、多属性效用理论、多准则决策分析等，以更好地描述和评估人类的实际决策行为和偏好。

研究不同的信息显示和交互方式，例如自然语言、图形、声音、触觉等，以更好地传达和解释决策问题的各个组成部分，以及提高人类的信息接收和处理能力。

尝试不同的激励和反馈机制，例如奖励、惩罚、信誉、声誉、社会影响等，以更好地激发和维持人类的决策动机和参与度，以及提高人类的决策学习和改进能力。

展开不同的人工智能和人类的协作模式，例如辅助、建议、代理、协商、协调等，以更好地平衡和利用人工智能和人类的优势和劣势，以及提高人工智能和人类的信任和满意度。

意义和价值

这篇论文为人工智能、数据可视化、人机交互等领域的研究者提供了一个清晰和有条理的决策问题的定义和评估的框架，以便更好地设计和分析人类和人工智能的决策协作的实验。

为人工智能、数据可视化、人机交互等领域的研究者提供了一个客观和严谨的决策性能损失的评估和分析的方法，以便更好地识别和改善人类和人工智能的决策协作的效果和质量。他们提供了一个批判和反思的决策问题的传达和解释的角度，以便更好地理解和沟通人类和人工智能的决策协作的问题和挑战。他们还提供了一个启发和创新的决策问题的拓展和深入的方向，以便更好地探索和发现人类和人工智能的决策协作的可能性和潜力。

总结和展望

在论文提出了一个基于统计决策理论和信息经济学的决策问题的定义，以及一个评估人类决策性能损失的框架。他们的目的是为人工智能、数据可视化、人机交互等领域的研究者提供一个清晰和有条理的指导和参考，以便更好地设计和分析人类和人工智能的决策协作的实验。他们对近年来的相关研究进行了编码和评估，发现只有很少一部分的研究向参与者提供了足够的信息来识别规范的决策，而大多数的研究都存在决策问题的不明确和不完整，导致对人类决策的偏差和缺陷的结论是不可靠的。我们建议研究者在设计实验时，要充分考虑决策理论的框架，要明确地向参与者和读者传达决策问题的所有必要组成部分，以便对人类决策行为进行有效的评估和改进。

作者也意识到框架和方法的局限性和未来需要进行的工作。他们的框架和方法基于期望效用理论和规范方法，这些理论和方法也存在一些挑战和批评，例如不符合人类的实际决策行为和偏好，以及忽略了人类决策的内在价值和意义。他们的框架和方法也可能不适用于一些主观、复杂、多目标的决策问题，也可能不能涵盖人类和人工智能的决策协作的所有可能性和潜力。因此我们的未来工作主要是在以下几个方面进行拓展和深入：探索其他的决策理论和方法，研究不同的信息显示和交互方式，研究不同的激励和反馈机制，研究不同的人工智能和人类的协作模式。(END)

参考资料：https://arxiv.org/abs/2401.15106