为了理解“'大数据'”,我们首先需要知道'数据'是什么 。牛津词典将'数据'定义为:
“由计算机执行操作的数量,字符或符号,可以以电信号的形式存储和传输,并记录在磁,光或机械记录介质上。”
因此,“大数据”也是一种数据, 但规模巨大。“大数据”是用来描述数据的集合,是体积庞大,但与time.In短成倍增长,术语 小号 UCH数据是如此之大,复杂,没有一个传统的数据管理工具,能够存储它或有效地处理它。
“'大数据'”的例子
以下是“大数据”的一些例子 -
在纽约股票交易所产生约一兆兆字节每天新的贸易数据。
社交媒体影响
统计数据显示,每天有 500多TB 的新数据被提取到社交媒体网站Facebook的数据库中 。这些数据主要是根据照片和视频上传,消息交换,评论等方式生成的。
单喷射引擎可在30分钟 的飞行时间内生成 10 + TB的数据 。每天有数千个航班,数据生成量可达数PB。
“大数据”类别
大数据'可以有三种形式:
- 结构化的
- 非结构化
- 半结构化
结构化的
任何可以以固定格式存储,访问和处理的数据都被称为“结构化”数据。在过去的一段时间里,计算机科学方面的人才在开发处理这类数据的技术方面取得了更大的成功(这种格式在此之前是众所周知的)并且也从中获得了价值。然而,现在几天,我们预见到这样的数据大小在很大程度上增长的问题,典型的大小正处于多个zettabyte的风靡。这里向大家推荐一个大数据交流圈q裙:894951460。
你知道吗? 10 21 字节 等于 1 zettabyte 或 10亿TB 形成 zettabyte。
通过查看这些数据,我们可以很容易地理解为什么会给出“大数据”的名称,并想象其存储和处理所涉及的挑战。
你知道吗? 存储在关系数据库管理系统中的 数据是 “结构化”数据的一个示例 。
结构化数据的示例
数据库中的“员工”表是结构化数据的示例
非结构化
任何具有未知形式或结构的数据都被归类为非结构化数据。除了规模巨大之外,非结构化数据在处理从中获取价值方面带来了多重挑战。非结构化数据的典型示例是包含简单文本文件,图像,视频等组合的异构数据源。现在,组织可以随时获得大量数据,但不幸的是,他们不知道如何从中获取价值。此数据采用原始格式或非结构化格式。
非结构化数据的示例
“Google搜索”返回的输出
半结构化
半结构化数据可以包含两种形式的数据。我们可以看到半结构化数据在形式上是一种受限制的,但实际上并没有用例如关系型DBMS中的表定义来定义。半结构化数据的示例是以XML文件表示的数据。
半结构化数据的例子
存储在XML文件中的个人数据 -
- <rec> <name> Prashant Rao </ name> <sex>男</ sex> <age> 35 </ age> </ rec> <rec> <name> Seema R. </ name> <sex> Female < / sex> <age> 41 </ age> </ rec> <rec> <name> Satish Mane </ name> <sex>男</ sex> <age> 29 </ age> </ rec> <rec> <name> Subrato Roy </ name> <sex>男</ sex> <age> 26 </ age> </ rec> <rec> <name> Jeremiah J。</ name> <sex>男</性> <年龄> 35 </年龄> </ REC></pre>
数据增长多年
请注意,非结构化的Web应用程序数据由日志文件,事务历史记录文件等组成.OLTP系统用于处理结构化数据,其中数据存储在关系(表)中。
“大数据”的特征
(i)卷 - “大数据”这个名称本身与巨大的规模有关。数据大小在确定数据价值方面起着非常关键的作用。此外,特定数据是否实际上可以被视为大数据,取决于数据量。因此, “交易量” 是处理“大数据”时需要考虑的一个特征。
(ii)多样性 - “大数据”的下一个方面是它的 多样性。
多样性是指异构来源和数据的本质,包括结构化和非结构化。在早期,电子表格和数据库是大多数应用程序考虑的***数据源。现在,在分析应用程序中也考虑了电子邮件,照片,视频,监控设备,PDF,音频等形式的数据。这种各种非结构化数据对存储,挖掘和分析数据提出了一些问题。
(iii)速度 - 术语 “速度” 是指数据生成的速度。生成和处理数据以满足需求的速度有多快,这决定了数据的真正潜力。
大数据速度处理数据从业务流程,应用程序日志,网络和社交媒体站点,传感器,移动设备等来源流入的速度。数据流量巨大且持续。
(iv)可变性 - 这是指有时可能由数据显示的不一致性,从而妨碍了能够有效处理和管理数据的过程。
大数据处理的好处
处理“大数据”的能力带来多种好处,例如 -
企业可以在做出决策时利用外部情报
从搜索引擎和Facebook,Twitter等网站访问社交数据使组织能够微调其业务战略。
改善客户服务
传统的客户反馈系统正在被采用“大数据”技术设计的新系统所取代。在这些新系统中,大数据和自然语言处理技术正被用于阅读和评估消费者的反应。
及早识别产品/服务的风险(如果有)
更高的运营效率
在确定应将哪些数据移动到数据仓库之前,“大数据”技术可用于为新数据创建临时区域或登陆区域。此外,“大数据”技术和数据仓库的这种集成有助于组织卸载不常访问的数据。