美国国家安全局能利用“大数据”做些什么-海南省国家安全厅

美国国家安全局永远无法捕捉互联网上所有可疑的动向——但他们也不需要。

国家安全局总部位于马里兰州米德堡。

有这么一家机构，其数据中心内保存着大量来自互联网的可见内容——图像捕捉系统就在我们周围，但我们却又无从感知。它拥有大量针对世界各地家用、企业乃至政府设施的卫星图像资料，共同构成一套总量达到PB级别的地理数据库，囊括了个人与组织信息。同时，其分析系统能够处理Web搜索请求、电子邮件信息及其它来自无数用户的电子设备操作活动。

虽然机构中没有任何人能确切“掌握”个人在网络中的行为，但信息被滥用的可能性仍然存在。从政策角度看，所有情况都会被软件所“了解”，而该机构的分析人士则从这一庞大的系统流程数据海洋中搜寻异常状况（例如违法活动）。

当然，这里说的是谷歌公司。大多数用户对于谷歌在“大数据”方面的处理并不在意，因为我们在很大程度上接受了由其提供的恩惠——虽然谷歌也确实从我们的活动中赚到了丰厚的经济回报。不过如果我们把“谷歌”这个名字消去，转而替换为“国家安全局”，那么事情在很多人眼中就会变得完全不同。

事实上国家安全局的PRISM程序以及对手机运营商通话元数据的收集与谷歌公司的处理方式并无不同：获取大量数据、从中找到信息之间的联系；整个过程无需手动操作，而且由专业分析人士从中提取“例外”情况。二者之间的本质区别只在于，如果国家安全局发现了异常事态，那么根据外国情报监视法（简称FISA）的有关规定，联邦调查局的特工人员将有权进一步监控甚至敲开我们的大门。

那么，国家安全局所搜集的“大数据”到底包含哪些内容、他们又能对这些信息做些什么？#p#

从网络干流中提取信息

让我们姑且不谈美国法律对于国家安全局行事方式的默认，转而关注其它一些能够对其加以约束的理论：也就是物理学法则与摩尔定律。国家安全局有能力从电话网络交换流量与互联网中收集大量数据，而且这种情况长期以来一直存在。由于电话公司本身的积极配合，安全局能够进行深度包检测、拥有数据包捕获硬件以及其它一些信号监控手段。然而他们原先一直无法真正捕捉并保存用户们所产生的全部数据，更无法将其无限期加以留存——但现在情况发生了变化，谷歌与雅虎的新机制让这两项艰巨任务成为可能。

我们都知道，国家安全局监控民众资料的消息来自前AT&T公司员工MarkKlein。他曾于2006年为AT&T工作，并帮助国家安全局在AT&T的全球网光纤主干上安装了类似于“水龙头”的分流装置，借以将数据信息引导至由一款名为Narus流量语义洞察分析器的工具。（该设备后来被更名为‘智能流量分析器’，或者简称为ITA。）

[[74861]]

AT&T公司位于旧金山福尔逊街的“秘密房间”被认为是该公司全国几套互联网监听基础设施之一，专门为国家安全局提供数据资料。

Narus的设备还被联邦调查局用于替代原先由其自主研发的“Carnivore”系统。它会对“配对标签”数据包（即数据包的属性与数值监控对象）进行扫描，并保留与设定条件相匹配的数据包信息。我曾在2012年9月对Narus公司网络分析产品管理总监NeilHarrington进行过采访，Harrington表示该公司的洞察系统能够以每秒达GB级别的速度对数据进行分析与排序。“通常采用一个万兆以太网接口，而且全力启动后系统的数据吞吐通能力可达到12Gb每秒。由于20Gb处理能力无法实现，因此我们选择了12Gb方案。如果我们暂时关闭不感兴趣的配对标签，则处理效率还能进一步提升。

单独一台NarusITA每秒能够处理1.5GB数据包信息的全部内容。这意味着其每小时处理能力达到5400GB、每天则为129.6TB，这还只是一个万兆网络装置的水准。所有数据都通过专有信息传输协议被归纳到一组逻辑服务器当中，数据包内容在这里被处理并重新匹配，从而把每天上PB的总体数据量降低至GB级别。具体方法是制作数据流量列表（在表中填写数据包的元数据内容）与应用程序数据列表。

国家安全局的这套网络“龙头”分流机制在美国及世界其它区域都普遍存在。不过在如此庞大的数据流面前，如何从中提取数据包并分析出真正有价值的信息是安全局方面面临的最大难题。存储、索引与分析工作需要面对超乎想象的规模化对象。根据思科公司的统计，2012年全球互联网流量每天达1.1艾字节，单从物理角度讲将其存储下来就已经无法实现，更不要说实际使用了。因此，国家安全局目前所捕捉并保留的数据总量仅占每天全球互联网流量中的一小部分。

另一大难点在于截获的数据包往往受到安全套接层（简称SSL）加密机制的保护。即使是在理想情况下，破解SSL加密机制也需要投入高昂成本，而且根本不可能应用到所有互联网流量当中（尽管针对伊朗的Flame恶意软件攻击已经证明SSL机制可以被破解）。因此，虽然美国国家安全局有能力掌握数据流的真实内容，但他们恐怕无法以实时方式获取这部分信息。#p#

原始社交网络

根据2006年曝出的消息，互联网监控还不是国家安全局的惟一一种数据收集方式。就在同年五月，有消息称安全局从电话运营商处获取到通话数据库，其中包含大量通话数据记录（例如通话时间与通话时长、相关电话号码以及移动设备本地数据等等）。这套数据库建立于2001年“911”恐怖袭击事件后不久，而且得到了AT&T、Verizon与BellSouth三家运营商的支持。长途通信供应商Qwest通讯公司则由于不认同FISA的合法地位而拒绝加入该计划。

根据《今日美国》发布的报告，国家安全局利用这套数据库进行“社交网络分析”。虽然分析流程主要是希望找出涉及海外个人的通话记录，但安全局方面仍然从运营商处获得了整套记录数据库，其中包括国内电话信息。

这套数据库（或者至少是其后续方案）被称为MARINA，《伦敦周刊》的MarcAmbinder报道称。而且根据上周英国《卫报》公布的文档，国家安全局仍然在无差别收集美国国内及涉外两类电话信息——目前惟一的区别在于FISA已经得到正式许可。根据FISA法令，其信息收集范围包括“广义通讯路径信息，包括但不限于对话识别信息（例如呼入呼出电话号码、国际移动用户识别码（简称IMEI）等）、端口标识、电话卡号码以及呼叫时间与时长。”

2006年，《今日美国》称这套通话数据库是“世界上规模最大的数据库”。该数据库处理着数以十亿记的电话记录数据，而这无疑是安全局物理空间难题的早期翻版。在如今互联网全面爆发的时代，监控工作的规模与难度无疑又会进一步提升。另外，要想通过电话信息推断人与人之间的关系，恐怕需要对大量柱状数据进行索引与分析。#p#

神秘的社交图谱

颇为讽刺的是，几乎在同一时间，谷歌与雅虎等互联网公司开始着手部署计划、希望解决大数据的存储与分析难题。2006年11月，谷歌公司率先公布了BigTable数据库计划书，称其有能力对PB级别的网络数据进行索引，且支持谷歌地球及其它应用程序。雅虎也不甘示弱，在努力追赶谷歌GFS文件系统（也就是BigTable的基础）的同时拿出了自己的成果——Hadoop。

BigTable与基于Hadoop的数据库为国家安全局指出了一条光明大道，使其真正有能力对获得的海量数据进行处理。但二者在服务情报工作方面还存在一大致命缺点：区分化安全（或者说广义层面上的安全性缺失）。因此在2008年，安全局方面决定着手建立一套更为理想的BigTable版本，也就是目前归属于Apache基金会的Accumulo项目。

Accumulo是一套“NoSQL”数据库，以键值对为基础。其设计思路类似于谷歌的Big Table与Amazon的Dynamo DB，但Accumulo却拥有一部分由国家安全局亲自设计的特殊安全功能，例如多级安全访问机制。该项目利用开源Hadoop平台及其它Apache产品创建而来。

在众多功能当中，Column Visibility值得关注，该功能允许数据行中的个别项目拥有不同分类属性。这样一来，拥有不同数据访问权限的用户与应用程序就能在信息列中查看与其职责匹配的数据内容。访问权限较低的用户无法阅读当前列中级别较高的数据。

Accumulo还能够通过特定模式以几乎实时的方式生成数据报告。举例来说，该系统可以根据某个IP地址范围找到特定的关键词或者电子邮件信息；它还能够以某个目标电话号码为基础分析出其它号码与之关联的程度。经过甄别后，它会将有价值的电子邮件或者电话号码传出另一套数据库，以供安全局工作人员慢慢加以分析。

换句话来说，Accumulo为国家安全局带来与谷歌同样的电子邮件与网络搜索分析能力——互联网上的任意操作、通话过程中的全部内容，一切都在其掌控之中。

它的运行基于名为“迭代器”的特定服务器进程类型。这些代码会持续处理输入的信息并以新型模式生成反馈报告。由于查询PB级数据库并等待响应往往需要耗费大量时间，特别是不断有新数码加入进来的情况下，因此迭代器就像是一群不知疲倦的小蚂蚁、日夜帮助国家安全局进行数据处理工作。

Accumulo还只是安全局武器库中的成员之一。由Accumulo生成的融合数据会被传输至Palantir的分析数据库及其Graph应用程序当中，能利用这些工具完成分析。Graph能够根据属性、关系以及基于此类关系的搜索行为在不同“实体”之间建立虚拟化连接——这些关系从概念上讲类似于Facebook的Unicorn搜索与社交图谱、谷歌的KnowledgeGraph以及微软研究院的Satori。

Palantir这类工具只能与大数据库中的小型子集协作，例如MARINA电话数据库。不过由Accumulo实现的后端工作能从规模大到无法由分析工具管理的海量数据中抽取出数据集。由于安全局与其它社交网络相互连通，关系类数据还拥有另一种处理源头，这就是PRISM。#p#

PRISM也走后门

国家安全局监控互联网通信的障碍之一在于SSL。从表面上看，以Gmail、Facebook以及原先也曾人气爆棚的Hotmail这类“云”服务令分析难题更加难以克服，因为它们等于是在SSL的保护之下为会话加入更多交互机制。然而讽刺的是，这些通信服务本身反而降低了安全局利用PRISM方案收集受保护数据的难度。

根据国家安全局承包商Edward Snowden泄露出的图片信息（已经由<华盛顿邮报>与<卫报>刊发），微软公司早在2007年就开始为安全局方面提供数据。在这一计划中，国家安全局开始访问云服务背后的服务器并查看用户数据，这等于是绕过了SSL保护机制、直接触及存储数据。

PRISM为国家安全局提供了一条与云供应商相通的网络纽带。不过目前对于安全局如何通过PRISM与云供应商对接还存在一些争议。《卫报》与《华盛顿邮报》在文章中将其称为通向服务器的“坦途”。不过《卫报》与《纽约时报》也报道称，微软表示其信息供应机制与DropBox非常相似，即设立一个由服务向安全局递交数据的“安全在线空间”，且与其服务器内容同步。其中容纳的信息包括用户从何处接入服务、他们与哪些对象进行沟通、电子邮件中的原始数据以及共享的文档等。其实联邦调查局也一直在进行类似的信息收集工作，但有趣的是曝出这条新闻的正是其同行——中央情报局主管DavidPatraeus与他的传记作家PaulaBroadwell。

国家安全局理论上可以将这些来自服务的元数据大量导出以实现内容搜索的全面性。然而事实上这根本不现实，理由很简单——他们没有那么大的存储空间。安全局方面根本不可能亲自保存包括电子邮件及附件在内的规模化应用程序数据。PRISM也允许安全局通过服务对特定对象的操作进行监控，包括临场数据（在其上线时自动通知安全局工作人员）、即时消息、视频与语音聊天以及利用服务实现的IP语音电话等。

国家安全局位于犹他州布拉夫代尔的数据中心正在建设之中，将配备泽字节级别的存储能力。#p#

途径与方式

有了收集得来的海量数据，我们就能很容易理解为什么安全局要在犹他州兴建拥有泽字节级别存储能力的数据中心了。另外，大家应该也能理解为什么隐私保护倡导者们会担心政府方面可能滥用个人数据。

我们先把政策放在一边，专注于审视当前监控体系的功能。国家安全局手中的技术能够创建出覆盖数亿人口的地理与关系图，其监控能力甚至超出了美国本土，这意味着我们的日常沟通都面临着被侵入的威胁。安全局同样有能力保护这些数据免受闲杂人等的窥探。而且在必要时，相信安全局也有能力让信息远离犯罪分子的觊觎。

即使已经开始着手建设如此庞大的数据中心，国家安全局仍然没有能力收集整个互联网的数据流量。但安全局事实上也不一定要通过捕捉全部信息来掌握特殊人士的动向——单是从流量中整理出的元数据已经足以勾勒出特定对象在网络上的大体活动。

现在的问题不在于国家安全局能或者不能勘破个人用户的数字化生活轨迹、并以“国家公敌”的形式动用一切力量打击特定对象。真正的关键是，安全局方面是否有能力将管理政策落实到位、保证这种强大的感知能力不会被滥用。当然，安全局的内部数据库肯定采用了更深入的信息划分机制，但外界对于这种保障措施的严格程度无从知晓。

国家情报主任JamesClapper及其他一些美国官员称，法律承诺这些数据“不会被用于故意针对任何美国公民、身处境外的美国人或者任何身处美国本土的人士。”然而EdwardSnowden的声明告诉我们，光靠法律的制约还远远不够，国家安全局需要出台更严厉的措施来保证其项目承包商不会将这套搜索引擎体系用于个人目的。