大数据让我们接受不准确的存在?事实证明是这样

大数据
传统的样本分析师们很难容忍错误数据的存在,因为他们一生都在研究如何防止和避免错误的出现。

在收集样本的时候,统计学家会用一整套的策略来减少错误发生的概率。在结果公布之前,他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。

但是,即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大。尤其是当我们收集所有数据的时候,这就行不通了。

不仅是因为耗费巨大,还因为在大规模的基础上保持数据收集标准的一致性不太现实。就算是不让人们进行沟通争吵,也不能解决这个问题。

大数据时代要求我们重新审视精确性的优劣。如果将传统的思维模式运用于数字化、网络化的21世纪,就会错过重要的信息。执迷于精确性是信息缺乏时代和模拟时代的产物。

在那个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以,我们需要确保每个数据的精确性,才不会导致分析结果的偏差。

有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。

大数据不仅让我们不再期待精确性,也让我们无法实现精确性。然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。

值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。

错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。

这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。


责任编辑:华轩 来源: 今日头条
相关推荐

2014-01-09 09:34:07

Linux

2021-11-24 07:25:47

ESClickHouse存储

2017-12-27 14:15:47

大数据数据分析圣诞

2021-08-23 07:42:57

Windows 10操作系统微软

2019-05-25 11:19:03

华为开发者存储

2023-05-26 08:55:44

2021-05-30 19:18:39

Facebook隐私网络攻击

2020-03-23 11:40:51

区块链分布式比特币

2011-10-11 15:42:54

大数据数据库

2012-03-08 10:37:13

Cloudpaging云计算Numecent

2022-12-19 10:45:14

编程几何

2014-09-11 12:10:19

2021-02-10 16:05:16

数据分析技术IT

2020-09-28 13:57:35

恶意软件黑客网络攻击

2017-09-15 15:59:48

微软Linux

2022-07-12 16:49:27

苹果自动驾驶Apple Car

2015-12-18 09:37:35

原生应用Web应用

2022-07-26 00:25:57

PandasQuery索引器

2011-07-06 10:15:52

云计算服务器云存储

2011-07-06 09:28:06

存储数据云计算
点赞
收藏

51CTO技术栈公众号