【51CTO.com快译】 民意调查结果再次印证一句老话:“进来的是垃圾,出去的也一定是垃圾”。
通过大选前的***几轮民意调查,大多数人认定共和党人唐纳德·特朗普将败给民主党上希拉里·克林顿。
然而事实并非如此。这次失败的预测,可能会令人们对于部分热门技术领域产生疑虑,包括大数据分析与客户关系管理。
不能言之过早,部分数据专家指出。他们同时表示,问题在于民意调查及FiveThirtyEight等天气预报方还需要更多关注数据收集而非数据处理。
数据分析机制在奥克兰竞技队的钱球模型中运作良好,但棒球数据统计与选举投票有着巨大差异,CRM分析师兼Beagle Research集团创始人Denis Pombriant表示。统计学家已经收集到“一个多世纪周期内极为可靠的”棒球数据,而民意调查数据目前尚不完善,他解释称。
一切数据分析工作都取决于“良好、明确且有效的数据,正因为如此,其目前仅在棒球领域拥有良好的指导效果,”他在上周三的研究报告中指出。“如果不对数据加以进行整理,那么其将再次印证IT领域的一句老话,‘进来的是垃圾,出去的也一定是垃圾。’”
民意调查其实并不属于真正的大数据,企业战略集团资深分析师Nik Rouda补充称。“民意调查数据在样本规模上不成问题,但在数据总量、数据类别以及历史尝试等层面尚不符合实时分析、机器学习以及其它先进分析机制的要求,”他通过邮件表示。“在我看来,采用更多大数据技术应该能够带来更理想的预测结论。”
两支竞选团队完全能够依靠选民分布、个人资料以及“行为分析机制带来清晰的宏观结论”,Rouda表示。“这实际上属于传统分析方案的失败,而非数学方法的失败或者大数据的失败。”
他建议称,预测各方应当更多将民意调查数据与社交媒体加以结合。相比之下,数字处理方案则更擅长于提供更为细微的财务性指标。
需要指出的是,在大多数全国性民意调查中,希拉里仅以小幅度优势取胜,其优势仅存在于误差范围内。截至上周三上午,希拉里在超过1.185亿张投票中领先18万5千票,但其至少在27个州内落败,其中包括数个原本预测其获胜的州。最终电子计票结果则显示,她的总得票数并不及特朗普。
然而,错误的预测结果似乎并非单纯源自误差范围,普林斯顿选举财团主管Samuel Wang教授指出——该财团曾在上周二早晨预测希拉里的获胜机率高达99%。
民意调查结果源自“一项系统性错误,”Wang在邮件中解释称。“整个民意调查投票组都被关闭。这是一项巨大的错误,且对结论的影响比率高达4%左右。”
Wang指出,他仍然在对这些结果进行评估。发生预测错误的原因之一,可能在于犹豫不决选民群体的摇摆态度。
“民意调查人员使用了‘未决定’这样的字眼,但这实际意味着此类选民无法表达自己的偏好——他们甚至自己也没有意识到这一点,”他指出。
在竞选初期,约有20%的共和党选民抱有这种“未决定”态度,Wang指出。“对于他们,投票给特朗普确实是个困难的选择,因为他们不知道该忠于党派立场还是反对激进候选人,”他补充道。“最终,也许是对党派的忠诚让他们下定了决心。”
Wang与Ovum大数据分析师Tony Baer都建议称,民意调查工作可能低估了那些难以触及的选民。美国的许多居民已经不再使用固定电话,这使得调查正确目标变得更加困难,Baer表示。
另外,人们在民意调查中给出的结论也许并非出自本心。民意调查有可能得到“错误的信号”,Baer在邮件中指出。
“当拥有足够庞大的数据集时,大家可以找到关于任何事物的信号,”他补充称。“因此,这就强调了正确数据集以及提出正确问题的重要性,意味着我们需要利用更多不同的数据集测试自己的假设。”
在被问及对特朗普获胜作何感想时,Baer表示他“和其他人一样感到困惑。”
原文标题:Is Trump's unexpected victory a failure for big data? Not really,作者:Grant Gross
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】