今天准备写一篇文章来谈大数据,人工智能和事物认知问题解决之间的关系逻辑。因此这篇文章不会谈底层的实现技术,而更多的会谈在整个信息技术革命下思维逻辑的发展演进过程,并对相互之间的关系做进一步思考。
大数据概念和其发展
大数据这个概念在5,6年相当火,而最近几年整体热度下降得很明显,类似的又出现了数据湖,数据中台这些概念。但是数据中台和数据湖,却很难体现出大数据的一些关键特征。
比如我们谈大数据核心,一般都会谈到其4V特征。
数据量足够大,PB级别以上
数据类型多样化,结构化,非结构化
时效性要求高
价值创造,大数据最终实现价值
前面几年大数据应用更多的是在做数据采集,集成,存储方面的事情,但是对数据本身的应用和分析却很少。大数据应用和分析做得好的可以看到重要是在电商行业,或者类似电信,金融等直接面对客户的大集团行业,应用的点也更多在针对性营销,推荐引擎,客户画像等方面。也就是说理想的应用场景很多,但是大量落地场景并不多。
很多企业建大数据平台,投入大量资源,时间和成本,虽然完成了统一的数据采集和存储,但是数据本身产生的价值并没有体现出来。
类似当前数据中台,实际也在谈一点,大数据平台不能是只做OLAP分析,做分析决策,更多的要考虑数据能力实时开放,反哺业务,为业务服务。
当你构建了大数据平台后,你会看到后续的数据运维,数据管控治理,数据分析均需要持续大量的人员投入,如果数据本身无法产生价值,那么平台最终被荒废掉也是合理之选。
大数据和传统BI
对于大部分企业来说,企业信息化发展本身也有一个过程。
其前期的数据分析更多的还是围绕结构化数据展开,这些数据采集集中后上PB级并不容易,同时也全部是结构化数据,这个时候传统的BI系统构建思路仍然适用,唯一的就是数据量大后你可能需要转到类似MPP分布式的数据分析库上来解决性能问题。
如果你完全采用类似Hadoop来构建大数据技术平台来解决上面这些问题,那么实际上完全没有必要,你会发现会引入更多的技术复杂度和业务建模复杂度。
为什么这样讲?
对于传统BI分析里面的维度分析,上钻下钻,切片等基于维度建模型形成的分析能力,在Hadoop存储和处理中并不合适。Hadoop在数据存储扩展,分析SQL运行效率上有明显提升,但是很多BI里面并不需要实时查询或即席查询能力。
也就是说企业如果没有这种数据实时分析结果反哺业务的需求,那么你更加没有必要马上去搭建这种大数据平台来解决你的问题。
相关性和因果关系
早期,《大数据时代》这本书可以说相当的活,作者在书中提出的“大数据三原则”:要全体不要抽样,要效率不要绝对精确,要相关不要因果。再次提到了大数据更加关注数据之间的相关性而非因果逻辑。
也就是大家熟知的啤酒和尿片的故事。
这个故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。 如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。
认知逻辑-从机械思维到信息论
当今天重新回顾这个案例的时候,实际本身就是我们认知世界的方式在发生大的变化。
我们传统思考方式就是机械思维,其中牛顿之一个很大的贡献值,简单来说就是自然界发生的各自现象事件,一定有其内在的规律和原因,同时这个原因我们可以用抽象的公式或模型来进行表达。
那么当我们遇到同样的现象的时候,就可以用公式去解题。
但是机械思维发展中出现两个问题,即有些时候我们没有办法做到精确建模,这本身又有两个原因,其一是对目标Y造成影响的X因子太多,无法穷举和认知全;其二是我们的测量系统出现问题,简单来说采集不全和测量不准。这些都对我们的确定性思维造成挑战。
解决该问题本身又有两种思路:
其一是概率和统计 其二是对信息不确定性的量化表达-信息论和信息熵(香农)
而信息论则完全相反,建立在不确定性(假设)基础上,要消息不确定性就必须引入信息。于是我们的思维逻辑发生了进一步变化,即从机械思维到大数据思维的转变。
复杂时间很难找到确定性和因果关系-》因此用不确定性眼光看待世界-》把智能问题转化为消除不确定性的问题-》找到消除相应不确定性的信息(或者说大量具有相关性的数据可以帮助我们消除这种不确定性)。
例如上面大数据的例子。
我们通过数据的相关分析,找到了啤酒与尿布搭配售卖的方法,但是我们并不清楚为何年轻父亲会在购买尿片的时候顺带几瓶啤酒。
在大数据时代,我们会产生一个错觉,因果关系不再重要,重要的是大数据相关性分析。我们还是回到上面的例子来假设下可能的因果关系。
比如最多的调查结果可能是年轻父亲购买尿片后,小孩换了新尿片可以快速地入睡,年轻父亲这个时候才能够有空闲时间进行消遣,能够产生空闲时间消遣才是推动啤酒购买的关键原因。
当你了解清楚因果关系后,你会发现年轻的父亲消遣的方式不只是喝啤酒,在家里看电影或球赛,打游戏,抽烟都可能是潜在的消遣方式。实际上你把香烟,口香糖,游戏卡等和尿布放在一起也能够达到同样的畅销结果。
简单总结一句重要的话就是:
一件事情你只是理解相关性那么只能是迎合或跟随,而只有理解了相关性后面的因果关系你才可能破局或引领变革。
人工智能和大数据
人工智能,简单来说就是计算机要模拟人的大脑来思考和解决问题。
可以看下百度百科对人工智能的一些说明
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。 人工智能涉及到计算机科学、心理学、哲学和语言学等学科。可以说几乎是自然科学和社会科学的所有学科,其范围已远远超出了计算机科学的范畴,人工智能与思维科学的关系是实践和理论的关系,人工智能是处于思维科学的技术应用层次,是它的一个应用分支。 从思维观点看,人工智能不仅限于逻辑思维,要考虑形象思维、灵感思维才能促进人工智能的突破性的发展,数学常被认为是多种学科的基础科学,数学也进入语言、思维领域,人工智能学科也必须借用数学工具,数学不仅在标准逻辑、模糊数学等范围发挥作用,数学进入人工智能学科,它们将互相促进而更快地发展。
计算机具备了人的智能能力。那么人的智能能力包括了识别,定义,归纳,抽象,推理,决策等多个方面的能力。
前面已经讲到了思考解决问题的一种方式:
即问题输入-》已有的算法模型-》问题解决
在很早以前的人工智能研究里面,更多的就是想着去模仿人脑思考和推理的过程。通过提供不同的输入方式让计算机进行学习,产生一个算法模型。然后对于新问题可以用模型去解决。类似人工神经网络,遗传算法等都是这个思路。但是当你提供的输入不足够多的时候,这个模型很难快速地收敛,也很难得出一个精确化的确定模型。
在大数据出现后,形成了计算机解决问题的新思路。
深度学习+大数据 = 人工智能
即从传统学习和建模推理思路转移到基于统计学的思路,这个李开复确实在里面做出了不小的贡献。其次就是在统计学基础上引入了深度学习的概念,而深度学习又依赖于海量大数据作为样本输入。
在李开复的《人工智能》一本书里面就谈到深度学习+大数据引领了第三次AI浪潮。简单来说就是你不需要去搞清楚人工神经网络这个精确模型是如何形成的?你只需要通过大量的样本输入去训练这个模型,最终得到你需要的输出。
简单来说一个计算机能够识别一只动物图片是猫,并不是计算机能够精确地描述出来猫应该具备的体型特征,而是图片中的动物的特征矩阵和数据库里面的动物猫最匹配而已。
对于谷歌的阿拉法狗战胜李世石在17年也引起了轰动,再次展示了深度学习算法和人工智能的威力。对于人工智能来讲,计算机本身的CPU并行计算能力远超人脑,主要有了合适的深度学习方法,计算机程序所发挥出来的人工智能威力巨大。
也就是说在大数据时代推动了人工智能的快速发展。
什么才是真正的智能?
当我们做IT系统或应用的时候,必须要搞清楚什么才是真正的智能或智慧。
计算机在解决问题的时候,实际上最简单的就是类似公式计算或求解,这个可以发挥计算机的强大算力,完胜人类。
其次就是基于固有场景下制定规则的模式匹配。
我们可以举一个智慧家庭里面的例子来作为参考。
当进门监控到是男主人回来的时候,自动将空调温度设置到24度并打开窗帘。当监控到是女主人回来的时候,将空调设置到26度,并关闭窗帘。
这个就是典型的基于场景的规则设置并执行操作。
这种情况下计算机的能力是在类似人脸识别,语音识别方面,而不是在最终的决策执行上面。因为决策完全是基于预设的规则执行。
而真正的人工智能应该是基于大量的数据采集和分析,自己形成了规则,并且后续基于规则进行执行相关操作。并不断基于新数据的输入不断地调整和优化自己的规则。
类似完全意义上的自动驾驶,就是典型的人工智能要攻克的场景,也就是说非固有模式,非提前给定规则下快速的解决问题并做出判断。
要做到这点,你必须有大量的数据采集并进行快速的分析。没有大数据底层技术,海量大数据的输入,是无法做到智能的。包括前面的AlphGo,如果没有大量的历史棋谱的输入和训练,电脑也是无法战胜人类的。
电脑基于算力,采用统计学的思路找到了机器智能化的新途径。
但是正如我前面谈到的,如果电脑并没有理解清楚因果关系,那么电脑就只能处于跟随状态而非引领状态。类似围棋也是一个道理,如果我们修改了围棋的一些规则,同时不给AlphGo新的输入训练,那么电脑同样变成白痴。
人为何能够战胜电脑,里面有一个重点就是不要放弃对因果和本源的探索。
信息化->数字化->智能化
在谈数字化转型的时候,实际上一直在谈三个关键点:
连接:万物互联,解决人和人,人和物,物和物的连接问题 数据:连接后产生集成和协同,协同过程自然会产生数据 智能:数据经过加工和提炼,形成智能化分析应用
对于连接你可以看到首先是解决了最基本的业务协同问题。但是连接更加重要的作用是产生和沉淀数据。
传统的连接更多的都是通过人来完成,通过人手工录入电子表单等数据来完成。而在数字化阶段必须解决连接的多样性问题,数据产生多样性问题,类似采用各种物联网传感设备,你会看到可以持续不断,自动化的产生大量你需要的输入。或者通过开会语音的记录,视频记录同样产生更多你原来没有关注的数据。
数据本身在万物互联阶段才形成了数量和类型的巨大变化,产生了大数据。
在数字化时代必须又重提大数据。
这个大数据的积累需要产生两个方面的作用,一个是直接应用到业务协同中,一个是真正提升智能化和智慧化的能力。当前大部分企业仍然在第一阶段,而要完全意义上的人工智能仍然在探索。
对于企业信息化领域同样适用我前面的说法,即计算机能够自动产生规则并应用规则,才是完整意义上的人工智能。否则计算机只是既定规则的执行者而已。包括我们常说的大数据推荐引擎,是计算机基于已有的推荐算法进行推荐,而不是大数据自己形成了推荐算法,这才是关键的区别点。
类似我原来在智慧交通上举的一个例子:
现在的智慧交通应用往往已经能够很方面地进行整个大城市环境下的交通状况监控并发布相应的道路状况信息。在GPS导航中往往也可以实时地看到相应的拥堵路况等信息,从而方便驾驶者选择新的路线。但是这仍然是一种事后分析和处理的机制,一个好的智能导航和交通流诱导系统一定是基于大量的实时数据分析为每个车辆给出最好的导航路线,而不是在事后进行处理。对于智能交通中的交通流分配和诱导等模型很复杂,而且面对大量的实时数据采集,根据模型进行实时分分析和计算,给出有价值的结果,这个在原有的信息技术下确实很难解决。
所以要做到完全的智能化或智慧化并不是一件容易的事情。
真正的智慧一定是面对新事物都能够自我学习,自我适应调整,自我优化的。而不是基于预设的规则。只要规则是人在预设,只要我们还始终保持对事物因果关系和本源的探索,那么在短期计算机就不可能做到完全替代人类。
模型的建立还是人,但是应用模型或规则,基于采集集成的大数据进行快速的分析决策是机器的强项,这才是是数字化转型第一阶段重点去解决的智能化问题。