外媒揭秘Facebook内容清理工作：累死AI都完不成的任务-facebook清理缓存

AI 只能学习见过的东西。每次Schroepfer和他的超过150名工程专家刚做出标记和清理有害材料的AI解决方案时，AI系统没见过的新的、可疑帖子（因此也就抓不到）又冒头了。Facebook的项目负责人Schroepfer说：“我真希望自己没看过那些东西。”

　　编者按：最近一系列的丑闻让社交网络巨头Facebook坐在了火山口上。“平台是中立的，不能干涉用户生成内容”再也不能成为借口。但是20亿用户每天产生的内容量要想清理简直是天方夜谭。哪怕使用了AI加以辅佐，也总会有AI意想不到的情况出现。这就好比一场猫捉老鼠的游戏，又像是西西弗斯推巨石上山，每每快到山顶时，石头就会从其手中滑脱，又得重新推回去，干着无止境的劳动。CTO 原本要帮助Facebook面向未来探索AI应用的新领域，现在不得不背负起这一沉重的负担。Cade Metz与Mike Isaac在外媒的一篇文章报道了Facebook内容清理方面的努力。

[[266540]]

　　有那么半小时，我们是坐在Facebook总部的一个会议室里的。周围都是白板，上面放满了蓝色和红色记号笔，我们在讨论从该社交网络剔除有害内容的技术难度。然后我们调出了一段视频证明这种挑战是难以对付的：新西兰克赖斯特彻奇的枪击案。

　　今年3月，一名枪手在2个清真寺射杀了51人，而且还在Facebook上进行视频直播。公司用了大概1个小时才把视频从网站清除。不过此时血腥镜头已经在社交媒体上传播开了。

　　Schroepfer沉默了。他的眼里好像有东西在闪。

　　一分钟后，他试图保持镇静的语气：“我们现在正致力于此事。这不会是一夜之功。但是我不希望6个月后再来一次这场对话。我们可以做得比这好得多。”

　　问题是此话当真还是Facebook只是在开玩笑。

　　过去3年，这个社交网络就一直因为有人在其网站上发布虚假、误导和不合适的内容的扩散而受到审查。CEO扎克伯格已经调用了一项技术，据他说可以帮助消除有问题的帖子：人工智能。

　　去年，在国会面前，扎克伯格作证说Facebook正在开发基于机器的系统来“识别特定类别的不良活动”，并且宣布“在5到10年内，我们将拥有AI工具”来侦测和移除仇恨言论。此后他就不断在媒体、与华尔街的电话会议及Facebook自己的活动上重复这些话。

　　Schroepfer——或者内部被叫做Schrep——就是Facebook的项目负责人。他要带领团队开发对数百万此类帖子进行分类和删除的自动化工具。但是这项任务就像西西弗斯推石头上山一样——是徒劳的，他在最近接受的3次采访中均承认了这一点。

　　这是因为每次Schroepfer和他的超过150名工程专家刚做出标记和清理有害材料的AI解决方案时，AI系统没见过的新的、可疑帖子（因此也就抓不到）又冒头了。再加上“不良活动”往往是旁观者的看法，而且不要说机器了，就连人类对它是什么也意见不一致，这使得这项任务更加困难。

　　在一次采访中，Schroepfer被迫承认光靠AI没法治好Facebook的病。他说：“我的确认为现在进入了收官阶段。”但“我并不认为‘一切均已解决’，可以收拾东西回家了。”

　　但是压力还在。过去的一周，在克赖斯特彻奇的视频饱受批评之后，Facebook修改了政策，对流媒体服务的使用进行了限制。周三在巴黎出席有法国总统马克龙和新西兰总理杰辛达·阿德恩参与的峰会时，该公司签署了一份保证书，承诺对其用于识别暴力内容的工具进行重新检查。

　　44岁的Schroepfer现在处在一个自己永远都不想坐的位置。多年来，他的工作一直都是帮助Facebook建设和一流的AI实验室。在这里，最聪明的头脑将解决利用机器从照片中选出人脸等技术挑战。他和扎克伯格希望做出一个可以跟Google，这个被广泛视为AI研究人员实力最雄厚的公司匹敌的AI部门。所以他从纽约大学、伦敦大学以及巴黎第六大学招聘博士。

　　但慢慢地，他已经变成了威胁和有害内容消除者的角色。现在，他和他招进来的人很多时间都花在利用AI识别和删除死亡威胁、自杀视频、错误信息以及彻底谎言上面了。

　　John Lilly是Moziila前CEO，现在是Greylock Partners的风投家，1990年代中期时曾与Schroepfer一起读计算机科学。她说：“我们谁都没见过这样的事情。该怎么解决这些问题没人任何人可以求助。”

　　Facebook允许我们跟Schroepfer交流，因为它想展示一下AI是怎么捕捉那些讨厌的内容的，大概也是因为它对人性化自己的主管感兴趣。据很多认识他的人说，这位CTO经常展现他的感受。

　　Jocelyn Goldfein就跟Schroepfe在Facebook共事过。前者是Zetta Venture Partners的风投家，他作证说：“我见过Schrep在工作中哭过，我不认为说这样的话是不合时宜。”

　　但是没几个人能预测到Schroepfer对我们的问题会作何反应。在其中2次采访中，对于AI可能会是解决方案他开始传递的是乐观的信息，然后就变得情绪化。他一度说有时候来上班都是一种挣扎。每次谈到Facebook所面临的问题规模以及他所担负的要改变局面的责任时，他都会哽咽。

　　谈到那些有问题的帖子时他说：“永远都不可能降到0。”

　　“多么沉重的负担，多么巨大的责任啊。”

　　2013年12月的一个星期天，Clément Farabet走进了内华达太浩湖Harrah赌场酒店的这家顶楼套房。在里面，他受到了Schroepfer和扎克伯格的欢迎。

　　扎克没有穿鞋。接下来的30分钟里，这位CEO穿着袜子来回踱步，一边跟纽约大学AI研究人员Farabet交谈。扎克伯格称AI是“下一个大事物”，是“Facebook的下一步”。Schroepfer则坐在沙发上，偶尔插插话来强调某一点。

　　他们到城里来是为了招募AI人才。那一年太浩湖是NIPS（神经信息系统处理大会）的举办地。而NIPS是专业的AI学术会议，每年都会吸引全球的顶级研究人员到来。Facebook管理层已经引进了Yann LeCun，这名纽约大学学者被认为是现代AI运动之父之一，被招进来后他创立了Facebook的AI实验室。把LeCun看作自己的导师的Farabet也在他们的最后人选当中。

　　说到扎克伯格，Farabet说：“他基本上谁都想要。他知道这一块的每一位研究人员的名字。”

　　那段时间是Facebook令人陶醉的日子，然后他们的轨迹和AI工作的使命开始改变了。

　　当时，从Google到Twitter，硅谷最大型的科技公司都在争相成为AI的中坚。这种技术已被互联网公司摒弃了多年。但在大学，像LeCun这样的研究人员已经悄悄地培育出名为“神经网络”的AI系统，这种复杂的数学系统可通过分析海量数据自行学习任务。出乎硅谷许多人的意料，这些晦涩且多少有些神秘的系统终于开始工作了。

　　Schroepfer和扎克伯格希望把Facebook推入到这场竞争当中，把这一迅速改进的技术视为公司必须抓住的东西。AI可以帮助该社交网络识别发布到网站上面的照片和视频中的人脸，Schroepfer说，而且还可以用来进行更好的定向广告，组织其新闻流，并进行语言翻译。AI还可以用来提供像“聊天机器人”这样的数字电子产品，让企业跟客户进行互动。

　　Schroepfer说：“我们打算招募全世界最好的人才。我们要建设新型的研究实验室。”

　　从2013年开始，Schroepfer就一直在招募专长神经网络的研究人员，当时该领域的明星酬金都是数百万甚至上千万美元（4、5年期）。在2013年的那个星期天，他们并没有成功招到Farabet，后者后来自己创办了一家AI初创企业，随后被Twitter收购了。但Schroepfer从Google、NYU以及蒙特利尔大学等处挖来了几十名顶级研究人员。

　　Schroepfer还组建了第二个组织，应用机器学习团队，任务是将Facebook AI实验室的技术转化为现实世界的应用，比如脸部识别、语言翻译以及增强现实工具等。

　　2015年底，部分AI工作开始转化。催化剂是巴黎恐袭。在那场袭击中，伊斯兰激进分子杀死了130人，并导致500人受伤。事后，据匿名人士透露，扎克伯格问应用机器学习团队Facebook可以怎样去打击恐怖主义。

　　作为回应，该团队利用新的Facebook AI实验室内部开发的技术来建设一套识别在该社交网络上宣传恐怖主义的系统。该工具会对Facebook里面提到了伊斯兰国或者基地组织的帖子进行分析，然后把那些最有可能违背公司反恐政策的帖子标记出来。然后再对帖子进行人工审核。

　　这是Facebook利用AI查贴删贴的转折点。

　　这项工作很快就有了强劲的发展势头。2016年11月，特朗普当选美国总统，大家对Facebook网站成为虚假信息的温床开始抵制，因为那些虚假信息可能影响到投票并且为特朗普的胜选打下基础。

　　尽管该公司已开始否认自己在虚假信息传播和选举中所扮演的角色，但仍开始在2017年初将技术资源转移到自动识别广泛的有害内容上，包括裸露照片和假账号等。它还设立了几十个“防垃圾（integrity）”岗位，专门来跟网站不同板块的有害内容做斗争。

　　到2017年中，有害内容检测已经成为了应用机器学习团队工作的重心。Schroepfer说：“我们的内容理解工作的头号优先事项显然是诚信。”

　　然后，到了2018年3月，纽约时报等报道了英国政治咨询机构剑桥分析在未经同意的情况下收割来数百万Facebook用户的信息，然后为特朗普的竞选团队提供投票人的档案信息。对该社交网络的怒火开始爆发了。

　　很快Schroepfer就被叫过去处理这起事件。2018年4月，他被指定为主管飞到伦敦面对英国的一个议会委员会，去回答对方有关剑桥分析丑闻的质疑。在那里，他被议会委员会的成员拷问了4个小时。

　　向全球直播的听证会期间，工党政客Ian Lucas对着面色铁青的这位主管发问：“Schroepfer先生，你的头儿是不是诚信的？我仍然不相信你的公司具有诚信。”

　　Forest Key是虚拟现实初创企业Pixvana的CEO，两人自从1990年代末一起在一家电影效果技术初创企业共事以来就认识了。他说：“我很难看得下去。这是多么沉重的负担啊。这是多么巨大的责任啊。”

　　用AI来牵制Facebook的内容问题的挑战仍在继续——Schroepfer的担子很重。

　　“劝说工程师不要打退堂鼓”

　　刚到Facebook的时候，Schroepfer被看作是问题解决者。

　　Schroepfer从小在佛罗里达德尔雷比奇长大，他的父母经营着一个1000瓦的调频电台，先是放摇滚乐，后来又换成R&B，1993年，Schroepfer搬到了加州上斯坦福。他在那里本科和研究生读的都是计算机科学，跟Lilly和Adam Nash（现为Dropbox的高管）这些技术专家混在一起。

　　毕业后，Schroepfer呆在硅谷，开始一段痛苦的技术事业。他先是在一家电影效果初创企业崭露头角，之后又成立了一家为大规模数据中心开发软件的公司，那家公司随后被Sun Microsystems收购。2005年，他加入了Mozilla担任工程副总裁。这家非营利组织的浏览器挑战了微软IE浏览器的垄断。当时，没有什么技术任务比他们的项目要大。

　　Mozilla联合创始人Mike Shaver曾跟Schroepfer共事过几年，他说：“浏览器是复杂产品，当时的竞争格局很不可思议。甚至在他的职业生涯早期，我对他的处理能力也从来都没怀疑过。”

　　2008年，Facebook联合创始人Dustin Moskovitz从工程负责人的位置退下。Schroepfer加盟接管了他的角色。当时Facebook服务的用户约为200万人，他的工作是保证网站在用户数暴涨的情况下不间断运行。这份工作涉及到管理成千上万的工程师，以及全球数以万计的计算机服务器。

　　Schroepfer说：“大部分的工作就像是着火的巴士正在从山上滚下来但4个轮子都瘪了。问题是怎么让它继续走。”他的的一天很大一部分是“跟工程师谈话让他们冷静下来不要冲动想不干”因为他们整天都在处理问题。

　　接下来的几年，他的团队开发了一系列的新技术来泡那么大的一个服务（Facebook现在的用户已经超过20亿）。他们推出了新的编程工具帮助公司更快更可靠地把Facebook交付到笔记本和手机上。它引入了定制服务器到数据中心，让庞大的服务器计算机网络运营变得流畅。到最后，Facebook显著减少了服务中断。

　　Schroepfer说：“我已经不记得上一次跟因为扩充问题而筋疲力尽的工程师对话是什么时候了。”

　　因为这些努力，Schroepfer的责任也越来越大。2013年，他被提拔为CTO。他的工作变成了着眼未来，跟踪公司应该探索的新的技术领域。想知道他的角色有多重要？他的办公桌就在扎克伯格的旁边，夹在这位CEO与COO Sheryl Sandberg中间。

　　关于Schroepfer，扎克伯格说：“他是公司很多人如何思考和运营的很好代表。Schrep的超级能力可以跨不同问题领域教导和建设团队。我还没跟其他任何能够像他那样做到这一点的人共事过。”

　　所以，毫不奇怪扎克伯格会找到Schroepfer去处理Facebook上所有那些有害内容。

　　西兰花 vs. 大麻

　　最近的一个下午，在一间Facebook的会议室，Schroepfer从他的屁股笔记本电脑里取出了两张图片。一张是西兰花的图片，另一张是聚成一团的大麻花蕾。每个人都盯着这些图片。有的不大敢确定哪个是哪个。

　　Schroepfer展示这些图片是想说明一点。即便是我们当中的一些人分辨都有困难，但现在Facebook的AI系统能够从成千上万中图像中找出模式，从而自行分辨大麻的蓓蕾。一旦AI标记出大麻图片，其中很多都是附加在Facebook广告上，利用图片通过该社交网络卖大麻的，公司就会找出来删掉。

　　Schroepfer说：“现在我们可以主动逮住这类东西了。”

　　问题在于大麻与西兰花之对决不仅是进展的信号，也是Facebook遭遇限制的标志。Schroepfer的团队已经开发出公司用于识别和移除大麻图片、裸体及恐怖分子相关内容的AI系统。但是那些系统不能把那些图片全都揪出来，因为总会有预想不到的内容出现，意味着还是会有数百万裸体、大麻相关以及恐怖分子相关的帖子继续进入到Facebook用户的视线。

　　识别流氓图片也是AI较为容易的任务之一。建造识别假新闻或者仇恨言论的系统会更困难。假新闻很容易就能塑造成看似真实的样子。仇恨言论也有问题，因为机器识别语言的微妙差别实在是太难了。很多微妙差异会因语言而异，而对话的上下文也会快速地演变，导致机器难以跟上。

　　AI Foundation是一家探索人工智能如何与虚假信息斗争的非营利组织。其研究负责人Delip Rao把这一挑战说成是“一场军备竞赛。”AI是根据之前出现的东西搭建的。但没有任何东西可学的情况太常见了。行为改变。攻击者创造出新技术。显然，这是一场猫捉老鼠的游戏。

　　Rao说：“有时候你比那些导致伤害的人领先一步。有时候他们在你的前头。”

　　那个下午，Schroepfer试图用数据和数字回答我们有关猫捉老鼠游戏的问题。他说Facebook现在自动移除了该社交网络96%的裸体内容。仇恨言论更棘手一点，他说——公司目前只捕捉到其中的51%（Facebook后来说提高到65%了）

　　Schroepfer承认军备竞赛元素的存在。他说，尽管Facebook可自动检测和移除有问题的直播视频流，但并没有识别出3月份新西兰的视频，因为这段视频跟过去任何上传到该社交网络的内容都不一样。这段视频用的是第一人称视角，就像计算机游戏一样。

　　在设计识别图像暴力的系统时，Facebook一般都要后向拿现有图像进行处理——那些踢猫的人，狗攻击人，汽车撞上行人，一个人拿棒球棒挥向另一人等的图片。但是，他说：“那些跟这个视频均无太多的相似之处。”

　　那次枪击视频的新颖性正是它之所以令人如此震惊的原因，Schroepfer说。“这也是它没有马上被标记出来的原因。”并且补充说自己看了那段视频好几次，以弄清楚Facebook下次可以如何去识别出来。

　　最后他说：“我真希望自己没看过那些东西。”