美国总统竞选前,一些国外的大数据预测公司预测特朗普将连任,但是最终拜登当选了。有些人疑问,大数据预测难道和算命术一样不准吗?
什么是大数据预测?
一般解释,大数据是指海量的数据集。如今,万物互联,尤其是移动互联网的普及,工作和生活都已经离不开信息设备,使用过程中无疑会产生大量的数据,大数据时代早就来临。
我国网民数量全球第一,各种上网活动都会产生数据,这其中包括网购,每天千万次以上级别的交易量。网页搜索,同样产生巨量的数据。即使我们不使用网络,城市里各种各样持续运行的监控以及传感器,银行、医院、地铁等单位处理业务的应用系统,都在产生大数据。大数据无处不在。
大数据预测则是大数据的核心应用,埃里克•西格尔在关于大数据预测的书中曾指出,大数据预测是通过学习和分析数据,来预测未来的一种科学技术,可以帮助执行人更好地决策。
大数据预测失效
这次美国大选,特朗普和拜登分属的共和党、民主党都有自己固定的票仓,在这些州大数据预测也比较准。但是,往往决定总统竞选结果的是那些摇摆州,摇摆州的民意调查也经常不精准,如何建立有效的预测模型,成了预测结果是否准确的关键。
一家预测特朗普连任的大数据公司,他们建立的模型是,分析网民搜索特朗普和拜登丑闻的比例。数据显示搜索拜登丑闻的网民远多于特朗普,通过丑闻搜索来预测竞选结果,前几次大选都显示了这种模型的准确性。
大数据预测失效是因为建立的模型准确性有偏差。
但是,此次特朗普团队对美国疫情的控制不力成为他很大的丑闻,网民查看新冠疫情,或者通过其他途径知晓新冠疫情,其实也是在查看特朗普的丑闻。如果该公司考虑到新冠疫情的搜索情况,重新建立模型,大数据预测就将变为拜登胜选。
所以,不是大数据预测不准,是设计大数据模型的人没有充分考虑到新冠疫情,也没有把它纳入预测模型中。另外数据源不准确,也会影响预测结果。例如有些人在做民意调查时,隐藏自己真正内心想法,这些都会变成错误的数据源。
国内一家大数据预测机构宣布,他们充分考虑了各种因素,建立了正确的预测模型,预测结果拜登胜选,说明大数据预测还是可信的。大数据预测模型的建立非常难,结果没出来前,我们都没法知道谁的模型正确,所以大数据预测有优点也有不足,企业决策需要全面均衡考虑。
应用领域多
数据每时每刻都在产生和被记录,大数据预测也正在成为各个领域的关键技术,在我们社会中发挥重要作用。
1.天气预报
大数据预测应用的典型案例是天气预报,在信息技术日趋发达的今天,在云计算和人工智能的帮助下,用先进的大数据技术处理和融合数据,气象预测会越来越准确。
气象数据,主要来源于气象卫星、气象雷达、气象站,以及各个专业机构的数据。天气预报即在海量的“大数据”基础下进行预测。
中国气象局高级工程师唐千红指出,不久的将来,地理信息和社会大数据均会为气象服务,我们可以精准了解任何时间和空间的气象信息。
2.军事预测
“知己知彼,百战不殆”。在军事领域,大数据结合云计算和人工智能技术发挥着重要作用,可以提高军事预测准确度,为战略和战术提供科学依据。
现代武器的信息化程度越来越高,智能化装备也在增加,这些军事装备可以源源不断采集各种战场数据。例如,军事卫星和雷达等系统会监测到各种数据;各种用电设备会产生电磁辐射,这也是战场数据的一种来源,将各种数据汇集,利用大数据技术,可以对敌我双方情况掌握更清楚,对战争状况进行有效预测,并制定更加有效的作战计划。
“兵马未动,粮草先行”,后勤补给在战争中非常重要,基于大数据的预测模型,可以采集作战对象和作战环境等数据,然后更科学预测出弹药补给、伤亡情况等,以便很大程度地提供后勤保障。
3.交通预测
在城市修路,大数据可以分析出合适的路线,建设单位也可以利用大数据预测,得出未来的车流量,就知道该建几条车道等,交通管理部门也可通过大数据预测,掌握各个时间段和区域的车流量,实施智能化的车辆调度。
我们经常使用的导航软件,后台也开启了大数据系统,可预测出合适的路线,随着技术的完善,预测的路线已经越来越精准。
4.疫情预测
2009年,一家互联网科技巨头利用美国人在互联网的搜索数据,与历史上流感传播期的数据进行对比,并用预测模型进行分析,成功预测了2009年的美国流感,并把位置精细到州和地区,比官方数据更精准,时间更早。
此次新冠疫情,也有大数据预测公司根据某些国家的行政政策、人文环境、卫生习惯、医疗条件和隔离措施等数据,预测出哪些国家疫情会比较严重些。
5.其他应用
赛果预测,有些互联网公司利用大数据平台,预测体育赛事,也有些和博彩相关的公司,正在用大数据预测彩票的结果。
金融市场预测,有些金融公司希望借大数据预测知晓金融市场走向,有个别公司获得了一定成功。
物价指数预测,大数据预测可以更加精准预测物价趋势,能提前发现通货膨胀或经济危机的蛛丝马迹。
用户需求预测,通过收集消费者的上网行为数据,大数据可以分析和洞察消费者的需求,相关的公司可以利用这些分析数据,推出和优化商品。
自然灾害预测,在物联网时代,传感器、摄像头和无线通讯遍布全球,利用各种监测设备采集的大数据,可以更加有效地预测将要发生的洪涝、高温等自然灾害,有利于我们提前做好预防措施。
除了上面列举的多个领域之外,在环境变化预测、污染排放预测、未来健康预测、行业发展预测、风险评估等领域,大数据预测正在发挥着重要作用,虽然大数据预测也未必百分百准确,但是这是预测领域比较好的方法。
处理好隐私,发展更广
中研普华研究报告指出,44.1%的受访企业表示,隐私保护成为制约大数据发展的第一障碍,既要保护好隐私,又要利用这些数据做预测,是大数据预测公司必须面对并解决好的难题。
中国科学院院士王小云教授指出,在信息时代,大数据面临严峻的安全问题,个人隐私如何更好的保护面临挑战。举例说,我们在超市和网上都会留下购物信息,在手机里存储个人秘密,在医院里有就诊记录。智慧城市系统有很多传感器记录,我们的指纹、脸部识别照片经常被其他机构获取。而这些信息如果被泄露,可能会为黑色产业链提供财富。
大数据预测公司使用这些数据时,需要格外小心,既要做到不侵犯他人隐私,也要有足够的措施保护好数据。
王小云教授强调,保护个人隐私,法律保障是基础。在我国,已有了三部法律,分别是电子签名法、网络安全法和电子商务法,另外,个人信息保护法有望出台,通过这些法律可为大数据保驾护航。
大数据预测公司,应在符合法律的基础上,开展更多的预测应用。在未来,大数据预测的市场会越来越大。