必读！大数据，是一种新的思维方式-什么是大数据思维

人工智能只是一种技术手段，数据资产最终决定人工智能的行业应用发展，以及企业新的市场。

随着互联网、开源、云计算等技术的发展，企业在技术上会越来越接近。

不久的将来，超级摩尔定律下芯片计算力会有更大突破，人工智能作为一种技术能力将越来越普及，长期来看，技术能力上的差异会越来越小。

在行业应用上，真正能建构牢固“护城河”的核心要素一定落在数据上。

那么，数据又从哪些维度展开竞争呢?

第一，数据的品质。

比如数据的准确性、完整性、可追溯性、持续性、真实性和共享性。这些品质决定着人工智能模型的质量，也决定最终的落地成果。

第二，数据竞争存在先发优势。

那些占据着特定的应用场景，并且更早、更多地获取数据的领域，人工智能的优势会更明显。

第三，数据的安全和隐私保护，决定了人工智能应用最终可以走多远。

一、提升数据品质

针对特定领域的数据集越庞大、越真实、越准确、越可追溯、维度越丰富、越协同共享，越能得出最佳算法并带来竞争优势。

比如，在奈飞的网站上，围绕用户的维度，有性别、年龄、浏览过的电影、喜欢的明星、过往阅览记录等;围绕某个电影的维度，有年代、导演、演员、风格、题材、用户评价等。

绕两个主体的数据维度越丰富，越能在两者间建立精准匹配的关系，让企业以更好的体验扩大用户群，不断强化自己的优势。

我们看到，App的用户规模越大，往往越能更精准地满足个性化体验。

比如，现在我们使用的一些音乐App已经能够精洞悉每个用户喜欢的音乐风格，并准确推送喜欢的音乐。

对如何提升数据品质，企业可以在两方面同时努力：

内部，要有系统的规划，实时采集和整理数据，建立长期数据积累;在外部，要有意识地构建生态体系或者寻找合作伙伴，尽可能多地获得相关数据，且搭建统一架构，帮助数据互通。

二、数据的先发优势

数据竞争一定存在先发优势。企业越是占据特定的场景，更早、更多地获取数据，人工智能的优势就越明显。

现在，数据尚未全面商品化，企业与企业之间的数据交换尚未畅通。

由于市场的复杂和竞争、数据安全和监管等原因，企业或机构不敢轻易开放数据，企业或机构需要通过自己的产品和生态体系来获得更多数据。

从这个角度看，平台型科技公司基于自己强大的数据基因，占有完全优势。

长期来看，数据是可以创造收益的资产，是公司的核心竞争力，越早入局规划，越能占据主动。未来数据全面商品化之后，价值会非常明显。

三、数据安全和隐私保护

对数据安全和个人隐私的保护程度，决定了人工智能可以走多远。

数据安全有两层含义：

一是保证用户数据不损坏、不丢失，这种情况发生的概率不大，数据存储在云端也安全得多;二是保证数据不泄露或者滥用，这是主要的关注点。

无论在电子商务、航空旅行、金融借贷还是医疗行业，全球已发生多起数据泄露的件，引发公众的愤慨。

2017年，单是美国征信企业艾可菲(Equifax)一家公司的信息泄露就涉及多达1.43亿人的姓名、住址、出生日期、社会保障号和驾照等敏感信息。

人们不可能纵容自己的数据隐私被侵犯。任由信息泄露和滥用，公司会陷入舆论的漩涡，商业发展的困境最终会阻碍人工智能的发展。

四、找到“强相关数据”

首先，无论大数据或小数据，有价值的就是好数据;其次，“大数据”这个词，更多是一种思维方式和一个时代标志。

实际的场景中使用的数据往往是有限的，真正有用的是“小数据”。

兵法上讲，“伤其十指不如断其一指”，大数据是一样的道理，要用力在关键的“一指”上，不必追求“十指”面面俱到。

用户源源不断地产生数据，目前对于企业来说，数据的收集和存储能力并不构成障碍。

症结在于，90%的数据没有被真正利用起来，成了“废数据”。

主观上，这与机构的数据思维文化有关，并不是所有公司都能像奈飞、亚马逊那样推崇用数据说话。

客观上，则与数据的相关度有关。

比如一名用户10年前的互联网数据，对于分析当下或预测未来并没有太多的作用，时间序列上的弱相关度，大大减弱了数据的效力。

相关数据，特别要强调与特定场景的相关度。现在，人工智能的应用针对的是某个具体任务或具体目标，需要的数据类型不尽相同。

比如，传媒、金融、医疗等各行业需要的细分数据不同，具体到同一行业的子领域也不同。比如，在医疗领域，心血管疾病和癌症诊断所要的细分数据就不一样。

大部分人工智能的应用场景，都是针对一个具体的任务。

比如，个人信贷鉴别申请者的信用风险，餐饮外卖确定最优的派送路线，资讯信息流做精准的个性化推荐……具体的场景中，起作用的主要是相关度高的数据。

五、重视小数据

相对大数据来说，能直接用起来的相关数据，往往是一种特定的小数据。

这里的小数据，指的是使用场景单一、对应算法简单、及时性较高、数量规模较少的数据。

可以说，大数据是宏观、全面的分析，小数据则是针对特定任务的具体分析。现阶段真正好用的其实是小数据。