我们曾报道过美国国安局NSA一项名为“天网”SKYNET的计划,根据The Intercept公布了一份文档显示,“天网”使用机器学习算法分析帮助NSA寻找潜在恐怖分子。如今,外媒却在质疑,这个项目可能已经在巴勒斯坦“误杀上千无辜平民”。
NSA:数据说了算 VS 专家:你们一派胡言
2014年,一名CIA和NSA前负责人宣称:我们杀人是基于元数据的。其本意大概是,我们不会滥杀无辜……但是,一名来自“人权数据分析组织”(Human Rights Data Analysis Group)的数据科学家Patrick Ball对NSA提出强烈质疑,他曾评价NSA机器学习算法“盲目乐观”并且“一派胡言”。
自2004年以来,巴基斯坦地区死于无人机轰炸下的人数介于2500至4000人,其中绝大部分人被美国政府定义为“极端分子”。而从此前流出的幻灯片不难发现,SKYNET机器学习程序早在2007年就在秘密开发中了。
SKYNET:披着大数据外衣的丧钟
“天网”就是一个很典型的大数据业务应用,程序进行元数据收集并储存到NSA云服务器,在提取所需相关信息之后运用机器学习从事有针对性的识别。NSA将其运用于巴基斯坦地区,分析了巴基斯坦地区5500万移动电话记录,其中包括手机通话数据(就是所谓的“DNR”或号码识别数据,如通话时间、持续时间、通话对象等等),用户定位和旅程详细情况,以及关机或换SIM卡操作。任何可疑的行为都会被做上记号。
简而言之,NSA通过生活模式、社交网络以及旅游行为三个维度来进行数据的收集和计算。在得到了较为完整的元数据集之后,SKYNET可以速写出人们典型的日常生活——某些人一起旅行、分享联系人、在一起过夜、访问其他国家或***移居。最终,NSA机器学习算法使用超过80种不同属性为人们的“恐怖分子率”打分。
然而,就是这一权威机构的科学算法却出现一个令人大跌眼镜的结果:
去年The Intercept公开了根据这一算法得分***的“恐怖分子”——竟然是一名受人敬仰的记者Ahmad Muaffaq Zaidan。
作为记者,Zaidan有着广泛的通讯网络,并采访过包括本拉登在内的多名基地组织领导人。对于“天网”系统的误杀,Zaidan十分愤慨。
解密“天网”为何疏而有漏
SKYNET的分类算法对元数据与基础事实进行分析,然后为每个人进行打分。理论上真正的恐怖分子会得到高分。
想要训练出这样的机器学习算法就像训练Bayesian垃圾邮件过滤器一样:你要给它“喂食”已知的垃圾邮件和非垃圾邮件。从这些最为基本的“真理”中,算法便会掌握怎样才能正确过滤垃圾邮件。
同理,“天网”项目中最为关键的部分便是算法的训练,而为数不多“已知恐怖分子”造成的局限性就显现出来。
小编从华盛顿大学Data Lab数据学研究者CHI那里了解到,NSA在“天网”中采用的随机森林算法在机器学习中很常用,而且一般来说效果也很好的,但是在用于发现恐怖分子时还存在诸多问题。
百科:随机森林算法
随机森林算法是采用用随机的方式建立一个有很多不相关决策树的森林,在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本为那一类。
Ball解释道“天网”算法是通过10万随机挑选的个体和已知的7名恐怖分子进行训练。NSA给算法提供6名恐怖分子,让它找出第7个。
安全专家Bruce Schneier认为政府在使用大数据时不同于其他情况:
“如果谷歌犯了个错误,人们最多是看到一辆汽车的广告而并不会想要购买。可如果政府犯了个错,可能会伤及无辜人的性命。”
在NSA的测试中甚至出现了0.18%的错误率,这就意味着在5500万样本中将近9.9万人进行了错误标记,而Ars暗示这一结果可能导致NSA对目标发起无人机轰炸。
科技之光,还是科技之殇?
算法已经开始统治我们的生活,用“天网”寻找恐怖分子这仅仅是个开始,采用相同逻辑寻找“毒贩”、“抗议者”或“异见人士”的手段可能不久之后或已经出现了。基于元数据的“杀人游戏”此刻就在进行着,而千里之外的我们对此视而不见。倘若有天,“天网”认定了你是恐怖分子,那时你该怎么办?