新冠大流行摧毁了许多低收入和中等收入国家,导致广泛的粮食不安全以及生活水平的急剧下降。为了应对这场危机,世界各国政府和人道主义组织已向超过 15 亿人分发了社会援助。但是,他们正面临着一个关键的挑战:在现有数据的情况下,快速确定最需要援助的目标人群仍是一项艰巨的任务。
在近日发表在 Nature 上的论文《Machine Learning and Phone Data can Improve Targeting of Humanitarian Aid》中,来自加州大学伯克利分校、德国曼海姆大学、美国西北大学的研究者展示了利用手机网络的数据可以提升人道主义救援的针对性。他们使用传统调研数据来训练机器学习算法,以识别用户手机数据中的贫困状况。然后,经过训练的算法可以优先向那些最贫困的手机用户提供援助。
论文地址:https://www.nature.com/articles/s41586-022-04484-9
研究者通过研究西非国家多哥(Togo)的一个旗舰紧急现金转移项目(Novissi)对方法进行了评估,这项计划使用算法分配了价值数百万美元的新冠救济援助金。他们在分析中比较了不同目标确定机制下的结果,包括排除误差(exclusion errors,真正的穷人被错误地认为没有资格)、总体社会福利和公平性衡量。
相较于多哥政府采用的地理位置目标确定方法,研究者使用机器学习方法将排除误差减少了 4–21%。而相较于需要全面社会登记(一种假设,多哥并不存在这种登记)的方法,机器学习方法将排除误差增加了 9–35%。这些结果强调了新数据源在确定人道援助方面能够对传统方法做出补充,尤其是在传统数据缺失或过时的危机环境中。
研究背景
我们先来了解一下多哥的旗舰紧急现金转移项目 Novissi。2020 年 4 月,在首批新冠病例出现不久,多哥政府推出了这一项目。由于经济限制命令导致很多多哥人停工,并引发了广泛的粮食安全问题。Novissi 项目旨在为受影响最重的人提供生存现金援助。
项目地址:https://publicadministration.un.org/zh/Themes/Digital-Government/Good-Practices-for-Digital-Government/Compendium/CompendiumID/472
但是,当多哥政府刚开始推出 Novissi 项目时,没有可用来评估获援资格的传统社会登记系统,也抽不出时间或资源在新冠流行期间构建这类登记系统。最近的一次人口普查完成于 2011 年,没有包含家庭富裕或贫困信息。最近的国家生活水平调查仅仅涵盖了一部分家庭。
在这种情况下,Novissi 项目的援助资格根据 2019 年末更新的国家选民登记系统中包含的数据来确定。但遗憾的是,这种方法无法将多哥最贫困家庭纳入 Novissi 项目的援助范围。
该研究旨在帮助多哥政府将 Novissi 项目的援助范围从首都洛美的非正式工作者扩展到乡村地区的更贫困人群,在实现过程中还要满足多哥政府的两个既定政策目标:将援助引向该国最贫困的地理区域;优先向这些地理区域的最贫困手机用户分配援助。
基于此,研究者使用机器学习算法分析了从卫星到手机网络上的非传统数据,并最终提升了最贫困手机用户人群的目标确定。
对手机用户进行调查,确定用户财富和消费水平
第一步将机器学习算法用于高分辨率卫星图像,以获得多哥每 2.4 公里 × 2.4 公里区域财富微观估计。这些估计提供了每个小网格单元中所有家庭相对财富,之后对这些网格单元进行人口加权平均,从而得出多哥最小行政单元财富估计。
第二步通过机器学习算法对多哥两家移动电话运营商提供的移动电话元数据进行处理,以估计每个移动电话用户的平均日消费。
具体而言,该研究从多哥两家移动网络运营商那里获得了 2018-2021 年特定时间段的手机元数据(呼叫详细记录 (CDR))。该研究重点关注移动网络数据的三个分段片:2018 年 10 月至 12 月、2019 年 4 月至 6 月和 2020 年 3 月至 9 月。CDR 数据包含以下信息。通话:来电者电话号码、接收者电话号码、通话日期和时间、通话时长、拨打电话的基站 ID;SMS 消息:发送方电话号码、接收方电话号码、消息的日期和时间、发送消息的天线 ID;移动数据使用:电话号码、交易日期和时间、数据消耗量(上传和下载相结合);移动货币交易:发送方电话号码、接收方电话号码(如果是点对点)、交易日期和时间、交易金额以及交易类型的广泛类别(现金、现金、点对点或 账单支付)。
该研究对具有代表性的手机用户进行了调查,并用这些调查来衡量每个用户的财富或消费,然后将基于调查的估计与每个用户使用手机历史的详细元数据相匹配,采用有监督机器学习算法对样本数据进行训练,通过手机使用来预测用户财富和消费水平。这第二步与传统的代理生活状况调查 ( proxy means test,PMT) 类似,但有两个主要区别:该研究使用手机特征的高维向量而不是资产的低维向量来估计财富;该研究使用旨在最大化样本外预测能力的机器学习算法,而不是最大化样本内拟合优度的传统线性回归。
大家比较关心数据隐私问题,为了保护获取到的数据机密性,该研究在分析之前通过将每个电话号码哈希编码为唯一 ID 来对 CDR 进行化名。这些数据存储在大学服务器上,设置了访问权限。在将 CDR 记录与调查回复进行匹配之前,该研究在电话调查中获得了所有研究对象的知情同意。
精准评估
该研究对这种将机器学习和手机数据相结合方法称为基于手机的方法。通过比较该方法与反事实方法下的定位误差:政府在 2020 年夏天试行的一种地理定位方法(多哥 admin-2 极,即多哥各县的贫困地图,40 个县),贫困州(多哥 admin-3 级,397 个州);基于职业的定位(包括 Novissi 针对非正式工人的最初定位方法,以及针对该国最贫穷职业类别的最佳方法)。
该研究想要实现帮助 100 个最穷州的最穷的人,研究发现,相对于多哥政府的其他可行目标定位方法,基于电话的目标定位方法大大减少了排除误差和包容错误(errors of inclusion)(非穷人被错误地认为有资格),如图 1a 和表 1 所示。
使用 PMT 作为真实贫困状况的衡量标准,基于电话的定位(曲线下面积 (AUC) = 0.70)优于针对农村 Novissi 援助的其他可行方法(例如,地域范围定位的 AUC = 0.59-0.64)。
图 1:Novissi 目标与替代目标的比较
表 1。
更多细节内容请阅读原论文。