福布斯近日撰文介绍了Facebook利用深度学习技术来全面了解用户的四种令人惊叹的方式,它们分别是文本分析、人脸识别、定向广告和设计AI应用程序。
近年来,媒体对机器学习、深度学习等人工智能技术进行过不少的基本介绍。展开相关研究的企业也不在少数,那企业们实际上又是如何应用它们的呢?
Facebook是通过了解它的用户和为广告主“包装”用户数据来展开业务的。而它从业务运营赚到的钱会重新投入到给用户提供有用的新功能,目前来说主要是提供视频和购物功能。接着,它还会利用这些功能服务来进一步了解用户。
随着该社交网络带给人们的通讯和对话交流方式被证明对我们很有价值,它成为了能够吸纳海量用户数据的“磁石”。那些数据涉及用户是谁、他们如何花费时间、他们喜欢什么等信息。对于Facebook从事数据挖掘工作的数据科学家们来说,挑战在于那些数据大部分都非常散乱,属于非结构化数据。
虽然Facebook平台上12亿用户每分钟上传的照片数量达到13.6万张,更新的状态数量达到29.3万,但直至最近,Facebook只能够寄望从它少量的非结构化数据(不易被量化和放入图标进行计算机分析的信息)当中挖掘价值。
深度学习正在帮助解决这一问题。深度学习技术使得机器能够自行归类数据。一个简单的例子就是,深度学习图像分析工具懂得学习识别含有猫的图像,不需要被告知猫长得什么样。通过分析大量的图像,它能够从图像的背景学习到信息——如还有什么东西可能会出现在猫图中?什么文本或者元数据可能暗示图像含有猫?
通过进行量化,以及方便分析工具获取深刻见解的形式呈现数据,这有助于结构化非结构化的数据。Facebook的研究者尝试回答这样的问题:公司的产品多经常出现在有猫的图像当中?我们是否该专注于向喜欢猫的人展示我们的广告吗?
那一基本原理解释了为什么深度学习对Facebook有用,随着深度学习算法变得更加先进,它们能够被应用于更多我们所分享的数据,从文本到图片再到视频。
以下几个特定的使用案例解释了深度学习如何被用来获得价值,帮助Facebook实现为用户带来更多便利,进而能够进一步了解他们的目标。
1. 文本分析
Facebook上分享的数据很大一部分还是文本。视频可能涉及更大量级的数据,但在获取洞察方面,文本仍能够带来同等的价值。一张图片可能含有1000个字,但如果你只想要回答一个简单的问题,你通常不需要回答1000个字。任何无助于回答你的问题的数据都是噪音,都会浪费用于存储和分析的资源。
Facebook采用它自行研发的一项名为DeepText的工具来学习分析用户所发帖子的语境,进而提取字词的意思。通过分析词语之间的关系,神经网络能够根据那些词语周围的词语理解它们的意思变化。由于这是一种半监督半非监督式的学习,那些算法不一定有解释每个词语意思的参考数据,比如字典。相反,DeepText是根据词语是如何被使用的来自学。
这意味着DeepText不会被拼写的变化、俚语或者特别的语言运用难倒。事实上,Facebook称该技术“能够支持各种语言”——由于它给词语贴标签的形式,它能够轻松地在各种不同的语言当中切换,能够将它从一种语言中学到的东西应用于另一种语言。
目前,该项工具被用于根据人们的对话内容将他们指向他们可能想要购买的产品。Facebook曾发布视频,举例解释DeepText是如何根据语境来决定是否该给用户提供购物链接。
2. 人脸识别
Facebook采用名为DeepFace的深度学习应用程序,致力于教导它识别照片中的人。该公司表示,在识别两张不同照片中的人是否是同一个人上,其***进图像识别工具比人类还要准确——DeepFace识别成功率达到97%,人类则是96%。
这种技术的使用显然存在争议。隐私拥护者们指出,这种工具做得过火了,它会让Facebook能够根据人群的高分辨率照片给很多的人脸打上名字,这显然会对我们在公众场所匿名行走的自由构成威胁。欧盟监管机构对此表示认同,2013年它说服Facebook将该项功能从欧洲公民的账号中撤除。当时,该社交媒体巨头使用的是一个人脸识别工具的早期版本,并没有采用深度学习技术。自该技术***引起广泛关注以来,Facebook就一直没有透露它的进展。或许,它在等待一些隐私案件的裁决,想要在此之后再公布它的推出计划。
3. 定向广告
Facebook利用深度神经网络(深度学习的基石)来决定向哪些用户展示哪些广告。这一直以来都是它的业务的基础,通过让机器自行尽可能多地了解我们,在推送广告时以最富有洞察力的方式将我们聚拢在一起,该公司希望维持其对谷歌等其它角逐广告市场的高科技竞争对手的竞争优势。
4. 设计AI应用程序
Facebook甚至认定,决定那些运作能够通过AI和深度学习来改进的任务,能够由机器来处理。它实施了一个名为Flow的系统,该系统利用深度学习分析来每月对30万个机器学习模型进行模拟,让工程师能够测试验证他们的想法,精确找到提升运营效率的机会。
开源
Facebook非常支持开源,其名为Facebook人工智能研究(FAIR)的AI实验室的大部分研究成果都免费提供给任何人使用或者修改。Facebook的深度学习技术主要基于Torch平台,该平台环境专注于深度学习技术和社交网络的开发。
该公司甚至将其GPU驱动的AI硬件设计开源。那种超快速的计算机专门针对深度学习任务的执行进行了优化,该类任务往往需要非常强大的处理能力,因为它们涉及大量的运算,处理输入数据的速度要求很高。
展望未来
深度学习很可能将会继续在Facebook的未来发展中扮演重要的角色。尽管它目前对潜在的新应用三缄其口,但它提出过的想法包括:自动生成图片的语音描述来辅助视觉障碍者,以及预测哪些地方需要更大范围的网络覆盖,履行将网络连接推向全球各地的使命。长期而言,他们实力雄厚的AI和深度学习实验室可能也将会让无数的机构组织获益,不管是通过直接使用他们的服务,还是间接得益于他们对开源的支持。