本文转载自公众号“读芯术”(ID:AI_Discovery)
“大数据”对我的吸引力已经大不如前了。
回想当年,在我刚开始攻读数据科学硕士学位的天真岁月里,任何与大数据相关的主题都会让我兴奋不已。我试图挖掘每一组数据中属于3V的一部分。我想要从无穷的数据流中提炼出可分析的数据,然后建模、可视化、进行数据转换。
然而如今,每每看到“大数据”这个词,总会不自觉地让我扬起眉毛,内心不断地猜想接下来又会出现哪个同样“流行”又“模糊”的科技热词呢?
究竟是我变了,还是大数据变了?
流行词与现实
最近,我对流行词变得十分敏感。它们被高估了,实际上不具有任何意义。“让大数据为数字化时代带来创新”,这句话看上去很酷,但它的意义又是什么呢?现实可能停留在Excel电子表格、令人沮丧且缓慢的计算中。
大数据之所以令人感到兴奋,是因为它代表了一种巨大的财富(“它将是一种巨大的财富”,听起来耳熟吗?),你可以在其中搜索、查找并使用对你有价值的任何东西。
我最初对于大数据的看法是,“在所有这些数据中,肯定有什么东西是我们绝对想知道的”。或许这是对的,但要从大量数据中找到那些有价值的东西,我们要付出什么代价呢?
没有正确的基础架构,大数据将毫无用处
处理大量数据需要计算能力,存储能力、以及数据传输等能力。同时,还会遇到各种意想不到的瓶颈。
随着云平台的发展,计算能力变得更加便宜和易于使用,但云存储也在指数级增长,云计算的日常使用甚至本地服务器的维护都是一笔不小的开销。
这也就是本世纪关于数据的比较大的教训:有时候,对某些人而言像黄金一样的数据,于另一些人而言就是浪费整个存储空间的垃圾。
很多公司都是先花钱挖掘数据,然后再回过头来看哪些数据是真的有用的。费用却已经花掉了,但有没有用可不一定。
那如果我们在收集数据之前就优先确定数据是否有用,结果会怎么样呢?
不是所有数据都是有趣的数据
数据科学界有句话叫“无用输入再无效输出”。在实际应用中,有很多数据实际上是不可靠的,而且是需要下很大功夫清理才能被使用的。
通常,我们花费了大量精力、时间和金钱却只能在庞大的数据集中找到少量信息。根据Forrester的报告,企业内至少60%的数据仍未使用。
如果将这些未使用数据的存储成本投资在实际需要的数据的正确基础架构中,会怎么样呢?
数据越多越好吗?
“向AI投入尽可能多的数据”的时代已经结束了。人们已经意识到,不是每一个数据特性都是有用的,有些甚至可能有害,数据的质量往往比数量更加重要。
我们更希望数据能够以可靠、一致的方式来呈现我们关心的事情。通过了解数据的质量,也会更好地将我们领入一个可解释的、负责任的和安全的关于AI的研究探索阶段。
这是(大型)实施和(大型)搭建更好的基础架构的时代
我们已经获得了数据,现在需要做的是搭建更完善的基础架构,从而更安全地使用、共享、分析数据,并且能够更加精准地区分无用数据和有价值的信息。
我们还需要确保数据和人工智能的质量和可靠性,确保全世界都可以使用它们并理解其中涵义。尽管有些人很难理解这一点,但数据不在于庞大,而在于可靠。
尽管听上去没有其他口号那样有煽动力,但是我还是要讲:大数据已死,可靠的数据万岁!