大数据时代和大数据分析时代已经来临。到2025年,全球数据领域估计将增长到175ZB。
当然,互联网流量只是全球创建和存储的数据饼中的一小部分,其中也包括所有个人和企业数据。如今,整个世界的总数据量介于10至50ZB之间。我们如何处理所有这些数据?通过网络,个人设备,物联网等不断收集数据有什么好处?
答案是:“分析以获取见解”。
在无尽的数据海洋中的某个地方,存在着问题的答案,这些问题将推动企业、政府和整个社会的未来决策。
但是有了这么多数据,应该从哪里开始呢?
在本文中,我将向大家介绍大数据分析的基础知识,并帮助理解为什么它如此重要。你将了解它带来的好处、面临的挑战、如何分析数据以及大数据分析领域的诸多问题。
-------------------------------------------------------------------------------------------
目录
- 什么是大数据分析
- 大数据分析的好处
- 大数据分析挑战
- 资料类型
- 大数据分析的类型
- 数据分析过程
-------------------------------------------------------------------------------------------
一、什么是大数据分析?
大数据涉及“三个V”:体积、速度、种类。
IBM将大数据定义为一个术语,适用于其大小或类型超出传统关系数据库以低延迟捕获、管理和处理数据的能力的数据集。
大数据具有以下一个或多个特征:高容量、高速度、高多样性。人工智能(AI)、移动、社交和物联网(IoT)通过新的数据形式和数据源来推动数据复杂性。例如,大数据来自传感器、设备、视频和音频、网络、日志文件、事务性应用程序、Web和社交媒体,其中大部分实时且大规模生成。
大数据分析使用先进的分析技术来处理庞大、多样的数据集,这些数据集包括从不同来源收集的多种形式的数据(结构化,半结构化和非结构化数据),大小从TB到PB。
二、大数据分析的好处
大数据洞察力可以为公司的营收和营收带来重大利益。从帮助发现根本问题到更好地了解客户和运营,再到通知交流,大数据洞察力对组织的影响几乎无穷大。
1、大数据分析在业务中的好处
更快,更明智的决策:实时处理和分析数据的能力意味着公司可以立即采取行动来解决问题,调整策略或破译市场趋势。
高效的运营:许多公司使用大数据分析来获取有关内部供应链或服务的见解,允许他们进行更改并根据最新信息简化运营。
降低成本:公司不仅可以通过提高运营效率来降低成本,而且当今的大数据分析基础架构的成本要比过去的数据系统低得多。借助云,公司不再需要建立整个数据中心、管理硬件或雇用大型IT人才来维持工作。这些基于云的分析“堆栈”意味着他们可以从自己的数据中获得更多收益而无需花费很多资金。
改进的产品或服务开发:实时的市场,客户或行业洞察力可以帮助公司构建下一个出色的产品,或创建客户急需的服务。
2、大数据分析在政务中的好处
大数据分析的影响并不仅限于私营部门。如今,政府利用大数据为新的政策议程提供信息,对基础设施进行全面改进,并投资于新的社会计划。以下是一些公共部门工作的大数据分析的最新示例。
公共教育:教育部使用大数据来改善教学方法和学生学习。高等教育机构应用分析来提高服务质量,从而提高学生的成绩。
经济法规:大数据分析有助于从历史经济数据创建财务模型,以制定未来的政策。证券交易委员会使用大数据来规范金融活动,发现不良行为者并发现金融欺诈行为。
环境保护:二十多年来,能源部在其研究中一直使用数据分析来更好地预测天气模式、森林火灾和其他环境风险。
三、大数据分析面临的挑战
尽管大数据应用程序在企业中无处不在,但是部署大数据分析策略的公司和政府仍然面临许多挑战。
1、数据增长
如前所述,数据创建的速度惊人。企业使用大数据分析面临的最大挑战之一是存储和分析每天收集的所有数据。使得这一点特别困难的是必须进行分析的非结构化数据量(稍后会详细介绍)。
如果公司要使用数据,则必须将其存储在某种类型的分析数据库中,例如数据仓库。随着人工智能(AI)和机器学习(ML)应用的兴起,数据湖也经常被使用。当然,存储只是其中的一部分,维护没有错误、重复和过时或“坏”数据的健康数据库,还需要人力资源进行管理。这就是为什么当今一些以数据为主导的公司拥有由工程师、数据科学家和分析师组成的大型数据团队的原因。随着公司扩展和创建更多数据,随着时间的推移,数据基础架构变得越来越复。
2、资料整合
如今,数据是从各种不同的来源收集的,包括企业应用程序,第三方软件,社交媒体,电子邮件服务器等,这使得将数据集中到单个数据库中进行分析变得很困难。
由于数据集成仍然是公司面临的挑战,因此现代ETL和ELT工具不断涌现,它们通过自动执行数据收集和传输到数据仓库来简化数据管道。这项技术使数据集中成为可能,并消除了业务团队无法访问的数据孤岛。
3、及时的见解
就像这个世界上大多数事物一样,数据也会过期。随着当今创建新数据的速度加快,团队必须利用最新信息来制定决策,这不仅是必要的,而且也是当务之急。否则,他们冒着按照过时的假设进行操作的风险。
由于数据的保质期相对较短,因此组织必须在收集数据时实时分析数据。这需要强大的数据系统来在创建数据后立即收集数据,并将其转换并存储在分析数据库中,以便在几分钟内就可以对其进行查询。
4、管治
管理业务数据可能具有挑战性。如前所述,它在不断变化、老化并在多个系统之间移动。这可能会难以确保整个组织的数据完整性、可用性、可访问性和安全性。这就是治理流程的来龙去脉。有了正确的大数据治理策略,数据就可以集中、一致、准确、可用且安全。大数据治理(和数据建模)还允许使用一组通用的数据格式和定义。
数据治理至关重要。如果数据对于业务部门不可用或不准确,则他们将无法做出明智的决策。数据隐私法规的增加也需要其他治理实践来满足合规性。这些法规正在推动大量未来的治理策略。
5、安全
数据安全将始终为企业带来挑战。数据非常有价值,并且随着收集的敏感信息量的增加,总会有减轻安全隐患的机会。
一些更常见的挑战来自需要跟上快速变化的法规和安全形势。这需要更新安全补丁,并在出现新威胁时更新IT系统。当今的分布式技术框架中固有的漏洞可以为不良行为者提供破坏系统的机会。还普遍使用了虚假数据或反情报信息,这些数据可用于破坏数据库并阻碍公司从虚构信息中破译事实。
四、资料类型
1、定量数据和定性数
定量数据:
定量数据由硬数字组成,将其视为可以计数的事物。定量分析技术包括:
- 回归:预测因变量和一个或多个自变量之间的关系。
- 分类(概率估计):预测或计算个人属于某个类别的可能性。
- 聚类:基于相似性对总体中的个体进行分组。
定性数据:
定性数据比定量数据更具主观性,结构性也较差。在业务领域,会遇到来自客户调查和访谈的定性数据。常见的分析方法包括:
内容分析:用于对不同类型的文本和媒体进行分类。
叙事分析:分析来自各种来源的内容,包括访谈和实地观察。在进行分析时,确保指标采用公司已使用的格式。例如,如果公司按季度预算,则指标应反映相同的内容。
2、结构化数据与非结构化数据
数据(无论是定量的还是定性的)可以根据信息的性质、信息的收集方式、存储的位置以及是由人还是由机器创建的,而采用多种形状。要考虑的数据结构有两个主要级别:结构化数据和非结构化数据。
结构化数据:
结构化数据是经过严格格式化的信息,因此可以在关系数据库中轻松地进行搜索。通常是定量信息。示例包括名称、日期、电子邮件、价格以及我们用来查看存储在电子表格中的其他信息。
结构化数据通过机器代码进行组织和读取,从而使使用SQL在关系数据库中轻松添加、搜索或操作结构化数据成为可能。例如,电子商务在销售点收集的信息可能包括产品名称、购买日期、价格、UPC编号、付款方式和客户信息,所有这些信息很容易在以后搜索或分析以发现趋势或回答问题。
乍一看,很难仅从结构化数据中提取见解。但是使用分析工具,可能会破译有趣的趋势,例如波士顿的客户倾向于在2月和3月以更高的价格购买特定产品。这种洞察力可能会提醒你在那几个月内增加零售商店该商品的库存,以满足区域需求。
非结构化数据:
非结构化数据与结构化数据完全相反。它通常是定性数据,使用传统的数据库或电子表格进行搜索,操作和分析具有挑战性。常见示例包括图像、音频文件、文档格式或某人的社交媒体活动。
非结构化数据缺乏预先定义的数据模型,因此不容易在关系数据库中读取或分析,这意味着需要非关系(或NoSQL)数据库或数据湖来进行搜索。要从此类数据中提取见解,需要使用高级分析技术,例如数据挖掘、数据堆叠和统计。
非结构化的数据洞察力可以帮助公司了解诸如客户情绪和偏好、购买习惯等内容。分析这些类型的数据更具难度。但是,有了正确的资源,可以为你带来竞争优势的情报。
半结构化数据:
半结构化数据介于结构化和非结构化数据格式之间。该数据具有明确定义的特征,但缺乏严格的关系结构。它包括可创建分类层次结构的语义标签或元数据,从而使其在分析过程中更易于机读。
大多数人遇到的最常见的日常示例是智能手机照片。用智能手机拍摄的普通照片包含非结构化的图像内容,但带有时间戳,经过地理标记并携带有关设备本身的可识别信息。一些常见的半结构化数据格式包括JSON,CSV和XML文件类型。
半结构化数据构成了当今世界上生成的大多数数据。想一想每天拍摄的所有照片。半结构化数据通常与移动应用程序,设备和物联网(IoT)相关联。
五、大数据分析的类型
有四种主要类型的分析,它们的复杂性和可为组织生成的见解的程度各不相同。尽管有这四个类别,但每个类别都是相互关联的,可以彼此结合使用,以解锁更深入,更有意义的理解。
1、描述性分析
描述性分析可帮助你回答“正在发生什么?”的问题。它是最常见的分析形式,也是所有其他类型分析的基础。
任何看过实时仪表板或阅读季度报告的人都应该熟悉描述性分析。通常与跟踪组织内的关键绩效指标相关。实际上,这可能包括衡量市场营销和销售指标,例如第四季度合格潜在客户的数量。
2、诊断分析
一旦你知道发生了什么,自然会追踪到一个问题:“为什么发生?” 这就是诊断分析的亮点。
这种类型的分析需要在“仪表板后面”进行深入挖掘,以更好地了解特定结果或持续趋势的根本原因。在实践中,诊断分析可以帮助营销团队了解哪些广告系列吸引了合格的潜在客户。
3、预测分析
预测分析可以帮助回答“未来最有可能发生什么?”
基于过去的趋势,这种类型的分析使用历史数据来预测未来的结果。预测分析建立在通过描述性和诊断性分析获得的见解的基础上,并使用统计模型来预测未来最可能发生的情况。
4、规范分析
规范分析有助于组织理解“下一步我们该做什么?” 解决当前的趋势或问题。它比其他分析形式更为复杂,这意味着大多数企业都缺乏部署它的资源。
规范分析通常需要使用高级数据科学和人工智能来消化大量信息,并提出解决现有组织问题的决策。
六、大数据分析流程
如果没有正确的流程,将很难从组织的数据中获得分析见解。收集、处理和分析数据的过程与仅原始数据一样重要。正确的过程可以确保从数据中得出的见解是准确、一致的,并且没有产生错误趋势。
1、了解数据目标和要求
对公司目标和需求的清晰了解将帮助你从一开始就进行大数据分析。你将收集什么类型的数据?你将如何存储它?谁来分析?所有这些问题都很重要,最终不仅决定你需要建立的数据基础架构,而且还决定了你需要哪种类型的分析工具。
2、收集和集中数据以进行分析
明确了解目标后,需要从系统和应用程序中提取数据并将其传输到数据仓库或数据湖。这就是ELT和ETL解决方案发挥作用的地方。它们帮助将数据复制到云仓库进行分析。这种集中式数据存储可让你更全面地了解整个公司的情况,并消除了沿途可能存在的任何数据孤岛。可以从应用程序、电子商务事件、其他数据库等捕获数据。
3、为分析建模数据
一旦将数据放在中央数据存储中,就可以从技术上对其进行分析。但是在打开数据大门之前,你可能需要首先考虑数据模型。数据建模定义了数据如何关联,其含义以及如何一起联动。一个有效的模型可以使数据易于访问和使用,并确保人们在适当的环境中使用正确的信息,并且它需要数据与领域专家之间的紧密协作。
4、分析数据
在可查询的数据仓库中收集、处理、存储和建模数据之后,你将需要一个分析工具,该工具可以完成所有数据的搜索并返回可操作的见解以指导业务决策。从实时分析工具中充分了解你的需求至关重要。每个公司都是独一无二的,需求会有所不同。我们建议评估内部需求,并使采购决策与这些目标保持一致。
还需要注意的是,并非所有分析工具都是相同的。公司通常会为不同的团队或业务部门部署多种工具。考虑到这一点,这里是选择分析工具时要考虑的一些准则。
5、解释见解并告知决策
使用各种类型的分析方法,你可以从公司数据中发现各种见解。可以分析过去,实时跟踪操作,甚至预测未来可能发生的情况。这些趋势可以提高竞争优势,帮助创建更好的产品和服务,提供更好的客户体验等等。