大数据给世界编织了一副美丽的画面——万事万物皆可数据化,有数据就可以再要一个新世界。似乎人类没能够变成全知全能的造物主,就是因为数据不够多、算法不够好。
这种极端的观点一定程度反映了当下大数据行业的浮躁。《人类简史》里说到人类一直有想成为神的欲望,大数据的过度"神化"也能看到这种欲望的影子。冷静下来看,数据“大”有“大”的问题,数据“小”也有“小”的好处 。
大数据理念下的野蛮生长
之前工作中经常会碰到一种场景:搞大数据嘛,没数据怎么搞,先把数据搞过来再说,越多越好,堆到一起再想怎么用。在这种思路驱动下,商业上各种解决方案投其所好,搞数据集市、数据工厂、数据生态,应用场景想不清楚没关系,有了数据再发动大家一起想。逻辑看似很清晰,但往往投入不菲,成效不足。大数据之“大”是有成本和代价的,不考虑投入产出、不考虑约束限制的野蛮式发展,长久难以持续。
大数据应用下的信息“偏见”
互联网推荐是目前大数据应用较为“成功”的一个场景。这种基于行为数据的推荐,基本的逻辑是"浏览或搜索的越多——>对这类信息越感兴趣——>更需要相关的信息",这种应用思路过度泛化的推广到生产和工作中,会出现过度依赖相关性和经验性数据的倾向,看似客观数据往往带着“偏见”。基于这种推送机制,每天被推送的信息日益雷同,无形之中,获取的信息会局限在一个特定的认知圈中。而实际生活中,无论个人成长还是社会发展一直处在动态变化的过程中,一些看似没有统计意义的小数据,往往会起到不可忽视的影响。这种机制下对小数据的过滤,对个人来说容易形成偏见,应用到决策则可能产生大数据"经验主义"。
大数据语境下的数据取舍
之前一个搞了很多年大数据的客户在发愁,大量的沉淀数据怎么处理。不维护说不定还有用,维护吧成本很高,而且还不知道猴年马月能用一回。理想化一点,是数据都留着,花大力气采集清理大量的数据,真到用的时候,由于采集口径、数据质量等原因还不一定能用上。
一视同仁的对待所有数据,管理和应用效率是很低的。从业务角度,数据的价值并不相同。因此,要克服数据匮乏的焦虑,对数据进行取舍。
有时候,用的时候再去采数据,或者用人工等传统方法处理和决策,比起“泛滥性缺乏”的大数据可能更有效率。
大数据的理念和技术无疑是先进的,值得积极探索。但是要正视大数据落地实践中经常出现“理想丰满,现实骨感”的无奈。不要片面认为“大”就是好的,合适的才是最好的。