01 数据
数据几乎渗透到我们生活的每一个角落,从我们在手机中留下的数字足迹,到健康记录,再到购物历史,以及对资源(如能源)的使用情况。在当今这个数字世界里,脱离数字的生活虽然不是不可接受的,但也需要巨大的牺牲精神和不可思议的毅力才能忍受。
我们不仅是数据制造者,同时也是活跃的数据消费者,例如我们时常检查自己的在线消费习惯,监测健身程序,或者查看自己的常旅客积分是否够去加勒比度假,这些行为都是在消费数据。
但数据到底是什么?按最通用的形式来理解,数据就是被储存起来以备日后使用的信息。最早记录信息的方式可能是在动物骨头上刻蚀符号。到了20世纪50年代,人们开始在磁带上记录数字信息,然后是打孔卡片,再后来是使用磁盘。现代数据处理开始的时间并不长,但已经奠定了我们如何收集、存储、管理、使用信息的基础。
直到最近,我们对那些无法计算的信息(例如,视频和图像信息)还只能进行分类处理。但近几年来,通过大量的技术变革,无法存储的数据类型变得越来越少了。事实上,存储的信息,或者数据,就是以一种可用的编码方式,为了我们可计算的目的而建立的真实世界的模型。
数据是真实世界中所发生事情的持续记录或“模型”,这一事实是分析学的一个重要特征。被公认为“20世纪最伟大的统计学家之一”的乔治·鲍克斯(George Box)曾经说过:“所有的模型都是错误的,但有些模型是有用的。”
很多时候,我们在数据中发现一些没有意义或者完全错误的东西。请记住,数据是从真实的物理世界转化并抽象为代表真实世界的东西,即乔治所说的“模型”。就像机械速度计是测量速度的标准一样(也是衡量速率的一个很好的替代物),这个模型(指机械速度计)实际上是测量轮胎的转速,而不是速度。
总之,数据是存储的信息,是所有分析的基础。例如,在可视化分析中,我们利用可视化技术和交互界面对数据进行解析和推理,找出数据本身存在的规律。
02 分析
分析(analytics)可能是商业中使用得最多但却最难理解的术语之一。对一些人来说,它是一种用来“把数据屈打成招”(找出数据中潜藏规律)的技术或技巧,或者仅仅是商业智能与数据仓库的延伸;而对另外一些人来说,分析则是用于开发模型的统计、数学或定量方法。
Merriam-Webster字典称分析是“一种逻辑分析的方法”。Dictionary.com字典将分析定义为“逻辑分析的科学”。不幸的是,两种定义都直接使用了分析(analysis)这个词的词根,似乎存在循环解释的逻辑错误。
分析(analysis)这个词的起源可以追溯到16世纪80年代的中世纪拉丁语(anal-yticus)和希腊语(anal-ytiks),意思是“分解”(break up)或者“放松”(loosen)。我把分析(analytics)定义为一种解决数据驱动问题的结构化方法:通过对事实(数据)的仔细推敲,帮助我们解决问题的一套方法论。
关于分析的定义有很多争论。就当前讨论的问题而言,我将分析定义为:
一种全面的、基于数据驱动的解决问题的策略与方法。
我有意避免将分析定义为某个“过程”、某种“科学”或“学科”。相反,我将分析定义为一种全面的策略,正如读者将在本书第二部分中看到的那样,它是包含过程、规则、可交付物的最佳实践。
分析通过使用逻辑、归纳推理、演绎推理、批判思维、定量方法(结合数据)等手段,来检验和分析现象,从而确定其本质特征。分析植根于科学方法,包括问题的识别和理解、理论生成、假设检验和结果交流。
- 归纳推理
当积累的证据被用来支持一个结论,但结论仍带有一些不确定性的时候,就会用到归纳推理方法。也就是说,最终的结论有可能(存在一定概率)与给定前提不一致。通过归纳推理,我们基于具体的观测或数据能够做出广泛的、一般意义上的概括和总结。
- 演绎推理
演绎推理基于某些一般案例提出论断,然后依靠数据,使用统计推断或实验手段证明或证伪提出的论断。例如,按照演绎推理方法,我们提出一个关于世界运动方式的基本理论,然后(应用数据)去检验我们提出的假设的正确性。
分析可以用来解决各种各样的问题。例如,UPS公司应用分析结果而采取优化货物运输措施,节省了150多万加仑(1加仑=3.785 41立方分米)的燃油,减少了14 000吨的二氧化碳排放量 ;克利夫兰诊所利用分析结果优化了手术室的运营时间安排。
有了这些成功案例,对于技术供应商(硬件和软件)和其他不同支持者来说,“分析”毫无疑问都是极具吸引力的。当然,“分析”这个词当前存在过度使用危险,这可以从人们把这个术语与其他词的各种组合中看出。诸如:
- 大数据分析(big data analytics)
- 规范性分析(prescriptive analytics)
- 业务分析(business analytics)
- 操作分析(operational analytics)
- 高级分析(advanced analytics)
- 实时分析(real-time analytics)
- 边缘或环境分析(edge or ambient analytics)
虽然以上这些组合与搭配在分析应用的类型和描述上具有独特性,但也经常造成理解上的混乱,特别是对企业高管(如CXO层次高管)而言,技术供应商总是热衷于提供最新的分析解决方案,试图能解决他们的每一个业务痛点。
我的观点(许多志同道合、理性思考的人也有与我相同的观点)是,分析并不是一种技术,技术只是在分析活动中起到了推动和赋能作用的策略和方法。
分析通常也指能够识别数据之间有业务意义的模式和关系的任何解决方案。分析被用于解析不同规模的、不同复杂程度的、结构化和非结构化的、定量或定性的数据,以便从中实现对特定问题的理解、预测或优化的明确目的。
所谓高级分析也是分析的子集,它使用复杂的分析技术来支持基于事实的决策过程,而且这种分析通常是以自动化或半自动化的方式开展的。
高级分析通常包括数据挖掘、计量经济建模、预测、优化、预测建模、模拟、统计和文本挖掘等技术。
03 商业智能和报表
关于分析与商业智能的区别,几乎没有形成过共识。有些人将分析归类为商业智能的一个子集,而另一些人则把它归为完全不同的类别。我把商业智能(BI)定义为:
一种管理策略,用来建立一种更有结构性和更有效的决策方法……BI包括报表、查询、联机分析处理(OLAP)、仪表盘、记分卡甚至分析等常见要素。综合性术语BI也可以指获取、清理、集成和存储数据的过程。
有些人会将分析和商业智能之间的区别归纳为两个方面的不同:
- 所使用量化方法(即算法、数学、统计)的复杂度;
- 所产生结果是针对历史已发生的还是未来将发生的。
也就是说,商业智能的重点是使用相对简单的数学方法来对历史数据进行展示和呈现,而分析则被认为是采用更复杂的计算逻辑,并且能够预测一些特定问题、识别因果关系、确定最优解决方案的方法,有时也被用于指明需要采取的行动与措施。
大多数商业智能应用的局限性并不在于技术的限制,而在于分析的深度和为行动提供依据的真正洞察力。例如,告诉我已经发生了什么事情并不能帮助我决定如何行动以改变未来,这样的结果往往是通过离线分析(offline analysis)得到的。
分析的真正责任是形成可行动的、可操作的洞察力,从而能够帮助我们了解已经发生的事情(在什么地点发生,为什么会发生,在什么条件下发生),预测出未来可能发生什么,以及我们可以做什么来影响和优化未来的结果。
请注意,图1-1中描述的BI仪表盘描述了有关过去的事实,如销售、呼叫量、产品和账户,使你很容易获得组织当前销售状态或活动情况的快照。
▲图1-1 商业智能仪表盘
商业智能和它的近邻“报表”,都是用来描述有关现象的信息展示技术,通常位于数据传递管道的尾部,在那里可以直观地访问数据和结果。而另一方面,分析则超越了对数据的描述,它真正理解了这个现象的内在规律,从而来预测、优化和预判未来应采取的适当行动。
从传统上看,商业智能一直存在两个缺点,这源于它们与这样的事实有关:
- BI通常专注于建立对过去已经发生事实的认识,因为它侧重于度量和监视,而不是预测和优化;
- 其计量分析往往不够复杂,无法建立足以产生精确洞察力的有意义的改变(虽然正确的报表或可视化展现也可以对改变产生影响,但还不够精确)。
如果把商业智能与深入的“分析”恰当地结合在一起,而不仅仅停留在对事实的认识,它就更接近分析,但它又往往缺乏高级分析解决方案中经常用到的复杂统计、数学或者“机器学习”方法。
因此,我认为分析是商业智能总体框架内所包含的概念的一种自然演变。它更加强调充分开展必要的各种活动,以形成能促进行动的真知灼见。分析远远不止于在自助操作仪表盘或报表界面中所使用的、预先定义的可视化元素。
04 大数据
大数据(big data)是一种描述不和谐信息的方法,在将数据转化为洞察力的过程中,组织必须处理这些难以处理的信息。1997年,Michael Cox和David Ellsworth首次使用了大数据这一表述,他们当时提到的“问题”如下:
可视化为计算机系统提供了一个有趣的挑战:数据集通常相当大,占用了大量主内存、本地磁盘甚至远程磁盘的容量。我们称之为大数据问题。当数据集大到无法存放在主内存(核心存储器),或者甚至无法存储在本地磁盘上时,最常见的解决方案是扩充并获取更多的资源。
将大数据视为一个概念,它突出了这样一种挑战:数据的规模和复杂性超出了传统数据分析方法能够处理的范围。我们将大数据与传统的“小”数据进行对比,包括其容量(我们拥有多少数据)、速度(产生与获得数据的快慢)和多样性(包括数字、文本、图像、视频等多种数据形态)。
如果大数据是用来描述当今信息复杂性的概念,那么分析就可以帮助我们以主动的方式(预测性和规范性)来分析复杂性,而不是以被动的方式(即商业智能的范畴)来应对。
05 数据科学
与大数据相比,定义数据科学显得不是一件轻而易举的工作,因为在数据科学的众多定义中,很少发现一致的描述。关于数据科学意味着什么,以及它是否与分析完全不同,目前存在很多争论。
还有一些人,甚至试图通过讨论数据科学家的工作来定义数据科学:数据科学家所需要的技能,他们所扮演的角色,他们所使用的工具和技术,他们工作的地方,以及他们的教育背景,等等。但这些并没有对数据科学给出一个有意义的定义。
与其按照人(数据科学家)或他们所处理的问题来定义数据科学,不如将其定义如下:
数据科学是一门科学学科,它利用统计和数学等领域的定量方法以及现代技术,开发出用于发现模式、预测结果和为复杂问题找到最佳解决方案的算法。
数据科学和分析的区别在于,数据科学可以帮助甚至支持自动化实现对数据的分析,但是分析是一种以人为中心的策略,它充分利用各种工具,包括那些在数据科学中发现的工具,来理解事物现象之间的真正本质。
数据科学可能是这些概念中涉及面最广泛的,因为它关系到处理“数据”的整个科学和实践。我认为数据科学是由计算机科学家设计的分析学,但在实践中,数据科学往往侧重于对一般性宏观问题的研究,而分析往往侧重于解决特定行业或具体问题的挑战。
06 边缘(和环境)分析
在很多现代企业,分析是它们的一种核心业务活动,这些企业通过数据驱动和以人为中心的业务运营与管理流程实现了数据的大众化(democratize data)。
而边缘分析(edge analytics)一般指的是分布式分析,在这种场景下,分析被内置到一些机器或系统中,通过这种内置的方式,信息的生成与收集已经成为企业“下意识”的自主活动。
边缘分析通常与智能设备相关,这种情况下,分析计算是在数据收集点(例如设备、传感器、网络交换机或其他设备)开展的,与传统的数据管道传输方式(即采集数据、传输数据、清洗数据、集成数据、存储数据)不同,边缘分析把分析嵌入到收集数据的设备中完成或就近实现。
- 数据大众化
所谓数据大众化,指的是数据开放,使每个能够而且应该能够获得数据的人都有权通过工具来探索获取这些数据,而不是将数据局限于少数特权群体。
例如,传统的信用卡欺诈检测依赖于机器(例如读卡器),并通过与授权“代理”的连接发送请求来验证一个交易,算法需要在极短的时间内(百分之一毫秒)对此交易完成授权或打上欺诈标签,最后,读卡设备接收授权指令后完成或拒绝交易操作。在边缘分析中,算法将运行在仪器本身上(比如带有嵌入式分析的智能芯片读卡器)。
边缘分析通常与物联网(IoT)联系在一起。最近IDC在针对物联网IoT未来视界(FutureScape)的一份报告中提出,到2018年,40%的物联网数据将在网络中产生数据的边缘完成数据的存储、处理、分析和响应。
随着物联网的发展,我们很可能会看到未来对所谓的“万物分析”(Analytics of Things,AoT)有更多的关注,它指的是分析将给物联网数据带来独特价值的机会。
环境分析(ambient analytics)是另一个相关的术语,它的名字意味着“分析无处不在”。就像房间的灯光或音响常常不被注意,但却为舞台构建了氛围一样,环境分析也会影响我们工作和娱乐的环境。
我们看到环境智能正在日常生活场景中发挥作用,比如检测血糖水平和注射胰岛素。同样,当你回到住家附近时,家居自动化设备检测到相应信息,会自动调整温度和打开照明。环境分析超越了基于简单规则的决策,它利用算法来决定合适的行动路线。
毫无疑问,边缘和环境分析将继续挑战传统的以人为中心的管理方式与流程,传统管理方式下,使用分析结果(如对分析的理解、决策和采取的行动)以人为主,而在边缘和环境分析中会有越来越多的(不需要人工介入的)自主决策与执行。
07 信息学
信息学(informatics)是信息技术和信息管理的交叉学科。在实践中,信息学涉及用于数据存储和检索的处理技术。从本质上讲,信息学讨论信息是如何管理的,指的是支持流程化工作流的系统和数据生态系统,而不是对其中发现的数据进行分析。
在信息科学中经常谈到的健康信息学,它专门用于保健医疗研究,是介于健康信息技术和健康信息管理之间的一种专业技术,它将信息技术、通信和保健融合起来,以提高病人护理的质量和安全性。它位于人、信息和技术三者交汇处的中心。
保健政策是指在一个社会中为实现特定的保健目标而采取的决定、计划和行动。保健政策制定者希望看到医疗保健变得更经济、更安全、更高质量,信息技术和健康信息技术往往是实现这一目标的重要手段。
事实上,其中一项最必不可少的工作是正确定位数据资源,使之能提供每个患者360度的完整健康状况信息视图,只有数据共享才能做到这一点(见图1-2)。
▲图1-2 健康信息管理、健康信息技术和信息学之间的区别
分析集成了所有这些概念,并依赖于底层数据、支持技术和信息管理过程来实现这一目标。
08 人工智能与认知计算
人工智能(AI)是一门“让计算机做需要人类智能才能做的事情的科学”。
人工智能和机器学习的区别在于,人工智能是指利用计算机完成模式的识别与探索这类“智能”工作的广义概念,而机器学习是人工智能的子集,它主要指利用计算机从数据中学习的概念。
机器学习是人工智能的一个子集,它可以根据数据进行学习和预测,不是仅仅根据特定的一组规则或指令完成事先规划好的操作,而是利用算法训练来自主识别大量数据中的模式。
人工智能(和机器学习)可以在分析生命周期中使用,以支持发现和探索(例如,数据是如何构造的,存在什么模式等)。人工智能在分析中的应用通常以机器学习(如上文所述)或认知计算的形式出现。
认知计算是一种独特的应用,它将人工智能和机器学习算法结合在一起,试图复制(或模仿)人脑的行为。
认知计算系统被设计为像人一样通过思考、推理和记忆等方式来解决问题。这种设计方法使认知计算系统具有一个优势,使得它们能够“随着新数据的到来而学习和适应”并“探索和发现那些你永远不会知道去问的东西”。