那些从事机器学习(ML)项目的人都知道机器学习需要大量数据来训练算法。有的人会说数据永远不嫌多。数据量和生成的机器学习模型的复杂程度之间通常存在着正相关性。随着人工智能向着新的领域发展,用到的人工智能功能变得愈加复杂,这种对数据的饥渴只会变得更加强烈。除了人工智能的复杂性,其他一些趋势也在加剧这一问题,因此组织面前就出现了这样一个问题:“他们是否拥有适当的数据以成功推动人工智能项目?”如果他们没有足够的资源,他们是否应该为人工智能盛宴做更多的准备?
图1:人工智能/数据连续性
组织已经收集的所有大数据不太可能都是正确的数据,但是了解人工智能的发展方向能够让组织获得“立足点”,在未来几十年人工智能的发展过程中筛选和收集更多正确的数据。
人工智能的发展改变了数据游戏
虽然机器学习需要大量数据对自身行为进行修正,但随着人工智能功能复杂程度的提高,人工智能对数据的需求量也会迅速增加。从机器学习到深度学习(DL)更是向前迈出了一大步,而深度学习比机器学习需要的数据要多得多。原因在于深度学习通常只能识别神经网络各层之间的概念差异。当暴露在数百万个数据点之下时,深度学习可以确定概念的边界。深度学习让机器像人的大脑一样能够通过神经网络表示概念,从而能够解决更复杂的问题。人工智能还可以解决更为模糊的问题,这些问题的答案通常更加不确定或者是模棱两可的。这通常是判断或者识别类的问题,可以扩展到创作或者其他的右脑活动。这又导致对数据的更多需求,在某些情况下,从本质上而言,这些需求可能是迫切或者实时的。
从数据驱动到结果驱动的转变
人工智能在协助或解决的复杂问题中不断发展,随着这一趋势,它将成为数据驱动和目标/结果驱动。这意味着人工智能可能会在解决特定问题或者进行特定推断过程中即时请求数据,从而使数据管理变得更加复杂。它可能涉及解决方案的归纳数据驱动部分与为了达到目标假设的数据演绎需求的交互。以结果为导向的问题需要这种类型的动态交互。这与仅仅检索数据以寻找感兴趣的事件或模式的做法有很大的不同。决策驱动的方式则正好落在这两种截然不同的模式之间。通过将数据和结果进行匹配,可以聚焦一些决策的运行状况并加以改进。无论是归纳还是演绎都会出现更多的战略决策。这只是推动数据使用量需求的源动力之一。
不断变化的问题范围影响数据需求
人工智能解决方案的范围通常会从狭窄的领域开始,并随着时间的流逝而扩大到更大的范围,因此也就会需要更多数据。复杂的解决方案通常瞄准了多个答案,并且需要更多的数据来支持支路解决方案集,从而产生复杂/混合的结果。随着决策、行动和结果的范围跨越组织内部和外部的更多场景,将需要获取更多的数据以了解每种场景及其相互作用。这些场景中的每一个都可能以不同的速率变化和变形,因此,也就会需要更多的数据。
总结
显然,更多数据将成为人工智能辅助解决方案的标志。对数据的渴求可能来自于更具挑战性的问题、对高级人工智能/分析的更好利用或者是端到端价值链的增长。只有一点是确定无疑的。组织最好为“人工智能/数据交互”的新世界做好准备。它将改变或拓展数据管理策略、方法和技术。