Harper Reed曾是在幕后助力奥巴马在2012年竞选连任的首席技术官,日前他在澳大利亚悉尼举行的CeBIT大会上称大数据就是“胡扯”!
他说,他最早在2007年接触到“大数据”这个词,当时是指一种存储方面的难题。“我们在2007年使用这个词,当时是指数据难以保存。当时做大数据的人做得很好。”但是并非每个人都做得很好,知道如何做,或者有这么做的工具。6年之后,像Hadoop和Hbase意味着保存和准备大量的数据用于分析,这些不再是复杂的难题,但是“大数据”这个词依然存在。
Reed更希望“大数据”这个词没有得到如此广泛的使用,因为他认为很多考虑对大数据进行投资的人,可能并没有足够多的数据能称得上大数据。
作为奥巴马2012年竞选的首席数据科学家,Rayid Ghani表示认同Reed的观点。他透露说,他个人在国内存储的数据比竞选中使用的数据更多。
所以Reed认为,这次CeBIT大会的参会者中,少有人的数据量可以真正称之为“大”。
他说:“你可能会中等量的数据。”他认为大数据这个词现在更多地代表着分析工具,而非数据本身。
即使是“大”数据或者“中量”的数据包含的个人信息,Ghani表示,分析过程也可能并没有用之来得出有价值的东西。
他说:“比如,你开什么样的车,这种数据信息在竞选中是没什么用处的。我们并不使用这种私人数据。”他表示,比较有用处的是简单的数据点,例如对“你支持总统吗?”这种问题的回答。对问题的回答,以及个人是否曾经参加过竞选,奥巴马的团队利用这些信息可以识别出哪些人是值得他们关注的。
Reed还提醒25岁以上的人们不要对隐私问题感到恐慌。年龄稍大一些的人会对像Facebook挖掘用户信息这样的事耿耿于怀,而年轻人则对使用服务的隐私控制比较了解。他说,年龄稍大的人并不会费心去了解关于隐私控制的事情,因此他们对自己隐私的担忧是普遍存在的。“不要将我们自己的恐惧投射给别人。”