大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据分析通俗的讲就是将海量混杂的数据,通过利用各类手段统一协调成一个有机整体,然后以不同的可视化分析工具直观呈现给用户,让其通俗易懂的发现数据中的一些关键因素点。以保障相关人员提升工作效率及分析数据核心指标,并且为企业带来收益价值点。
5V特点
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
大量化Volume:非结构数据的超大规模和增长,总数据的80~90% ,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。IDC预计到2020年,全球将总共拥有35ZB的数据量。
很多人日常用到或者了解到的仅限于bit、Byte、KB、MB,其实在其之上还有更多维度的统计,例如:最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的十次方)来计算:
举一个例子:
一般情况下,大数据是以PB EB ZB为单位进行计量的:1PB相当于50%的全美学术研究图书馆藏书的信息内容;5EB相当于至今全世界人类所讲过的话语;1ZB如同全世界海滩沙子数量总和;1YB相当于7000位人类体内的微细胞总和。
- 价值化Value :大量的不相关信息,对未来趋势与模式的可预测分析,深度复杂分析,快速提炼出海量数据资源中的那部分有价值的信息,为客户带来真正的受益点。(例如:机器学习、人工智能、数据汇聚等)
- 多样化Variety :大数据的异构和多样化,很多不同的形式(结构化数据、非结构化数据、半结构化数据)呈现方式也不仅仅限于文本、图像、接口、文件、数据库类、标准格式等。
- 快速化Velocity:实时分析而非批量式分析,数据的快速提取、清洗、汇聚、标签化、具体到人事物中,立竿见影而非事后见效。时刻都会处理万亿级以上的数据,因此具有时效性,高速处理、响应迅速。
- 真实性Veracity:大数据中的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。提高数据的准确、可依赖程度,保证数据质量。也可以作为未来某种趋势的预判及以数据来提取到真正的需求点。
价值体现
大数据可以实现的应用可以概括为两个方向:一个是精准化定制;第二个是预测。
精准化定制定制可根据不同业务需求进行设计开发,通过数据去解决一些行业应用难点,例如:智慧城市、可视化大屏、警务大数据、金融大数据等,更多居于toB领域。
而预测类:比如像通过搜索引擎搜索同样的内容,每个人的结果却是大不相同的。会利用大数据推荐算法等模型来进行推送。再比如精准营销、百度的推广、淘宝的喜欢推荐,或者你到了一个地方,自动给你推荐周边的消费设施等等。头条新闻信息推荐等等,更多趋向于toC领域。
人物画像分析,通过对人物的准确、全方位的刻画,深入挖掘其数据间的内在关系,将零散杂乱的信息组织成有机整体。快速分析出人物的各类属性指标:身份信息、行动轨迹、经济情况、活动偏好、等级划分等,有效地利用分析结果,发现关键数据指标。
数据汇聚、分析、保护
数据聚合针对内外部数据进行多维数据快速汇聚。可通过实时接口、文件自动导入、主动查询等方式接入。并可对各类格式的数据进行智能清洗入库。
汇聚时,需要对各类来源数据进行精准提取:例如利用一些智能终端采集设备,提取入库后,对海量数据进行快速的清洗处理,将其以结构化数据、非结构化数据、半结构化数据为主体划分,而后进行标签化划分,利用图数据库赋予其不同标签,再下发到具体分析的人事物中,以多样可视化分析图表的形态直观展示数据结果。
可视化分析可通过利用不同的分析工具,以关系图、时序图、位置轨迹、词云、时光轴、画像分析、可视化大屏等可视化方式进行分析。(针对不同的需求,可利用将多个工具结合进行全维度数据分析)
数据分级保护针对数据在应用时进行分级和脱敏过滤,保障数据安全。从数据提取、清洗、入库、分类、标签化并具体到人事物环境进行层层加密处理,保障全流程安全。
具体可分为:数据安全、应用安全、环境安全等方面。
工具的选用
1. 基础工具
传统分析/商业统计:
Excel、SPSS、SAS 这三者对于研究人员而言并不陌生。
Excel作为电子表格软件,适合简单统计汇总需求,由于其方便好用,功能也能满足很多场景需要,所以一直受用于广大用户基本统计分析。
SPSS(SPSS Statistics)和SAS作为商业统计软件,提供研究常用的经典统计分析(如回归、方差、因子、多变量分析等)处理。SPSS 轻量、易于使用,但功能相对较少,适合常规基本统计分析。
SAS 功能丰富而强大(包括绘图能力),且支持编程扩展其分析能力,适合复杂与高要求的统计性分析。
以上几种软件属于传统性的数据统计软件,此处不做过多的解说。要进行具体的数据汇聚并且可视化展示还需要利用一些可视化工具软件,如下:
2. 可视化工具
Echats:
- 千万级数据可视化渲染能力;
- SVG + Canvas 双引擎动力更佳;
- 数据样式分离及扁平配置让开发更便捷;
- 首创无障碍访问支持;
- 微信小程序、PPT,哪里都能用;
- 数据自由刷选:自由选择数据,发掘数据背后的更多秘密;
- 多图表联动查看:对多个图表数据联动查看,进行多维有效分析。
当前接入是免费形式,通过选取不同的可视化工具类图展示符合业务需求的类后,进行数据的呈现,由于非矢量关系图标化,若数据过多时会存在前台渲染加载卡顿情况。
Highcharts:兼容 IE6+、完美支持移动端、图表类型丰富、方便快捷的 HTML5 交互性图表库。
会有部分收费对接资源,基本展示与Echat相近,界面体验更友情化。
AntV:
GraphinStudio 是基于 Graphin 开发的通用关系分析平台,具有关系扩散,关系发现,布局切换等功能。
- 完善的图形语法:数据到图形的映射,能够绘制出所有的图表。
- 全新的交互语法:通过触发和反馈机制可以组合出各种交互行为,对数据进行探索。
- 强大的 View 模块:可支持开发个性化的数据多维分析图形。
- 双引擎渲染:Canvas 或 SVG 任意切换。
- 可视化组件体系:面向交互、体验优雅。
- 全面拥抱 TypeScript:提供完整的类型定义文件。
相对来功能展示更强大,可以支持不同图形标签选择,关系属性关联,更加灵活的展示分析结果信息。
3. 不同图表的选用
通过图表形式展现数据,帮助用户快速、准确理解信息。准确、快速是可视化的关键。借助于图形化手段,清晰有效地传达与沟通信息同时对数据进行交互分析。
(1)柱形图
通过柱状图,可以清晰展示各个数据类型的统计数据信息,并且可以直观进行对比,发现趋势
适合的数据:一个分类数据字段、一个连续数据字段。
功能:对比分类数据的数值大小。
数据与图形的映射:
- 横轴可展示具体的时间维度区间
- 纵轴可展示数据量的多少
- 不同类别可以不同色块进行区分
适合的数据条数:根据页面大小灵活设计,建议不超过1个月数据区间。
(2)散点图
散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。
适合的数据:两个连续数据字段
横轴可展示具体的时间维度区间或者不同的属性描述,纵轴可展示数据量的多少。不同类别可以不同色块进行区分。
备注:可更具实际情况对点的形状进行分类字段的映射。点的颜色进行分类或连续字段的映射。
可视化分析
1. 用户画像产品
用户画像: User Profile用户画像是通过搜集和分析用户行为喜好、静态属性信息和消费习惯信息等数据,将用户的特征信息抽象化的进行展示。
用户画像的标签表征用户的兴趣、爱好、习惯特点,为标签计算权重来表示用户对标签特征的需求程度,使用户的特征得到量化。更多区域用户消费行为的分析统计,可预判用户的消费特性,通过数据分析结果来帮助运营人员抓住用户消费痛点。
2. 推荐系统
推荐系统有很多中,其中有一种是用户画像的用处,即利用用户画像做个性化推荐、广告推荐、活动推荐、内容推荐等。利用相关的算法,可以帮助其广告精准推广营销,精确推送给用户其所喜好的阅读信息等
像今日头条有自己强大的算法模式:
- 我们初期可以根据相关的线性函数来做数值推理或者用户群中划分;
- 根据喜好相同的不同用户去推送各自不同的相似栏目信息内容;
- 通过后台大数据的汇总,进行抽样随机选择的方式,推理出高概率相符信息内容进行推送。
3. 可视化大屏
上图为可视化大屏展示,其中可针对不同业务需求进行定制化开发:(可用于企业高端效果展示,关键数据指标可视化展示,工作汇报总结,领导检验等)
- 3D实时数据模型可视化数据展示,采用逼真的视觉效果呈现帮助用户理解、展现科技创新形象;
- 提供多种数据交互场景,可进行三维视角观测、切换、拖拽、缩放等交互方式,缩短用户对态势认知成本,提升决策效率;
- 地图以区域定制化展现整体数据分布动态;各类标签属性进行相关数据的展示。多维关键数据指标为整体数据大屏做支撑;
- 可视化大屏属于定制化功能模块,可支持3D炫酷建模效果,城市全景地图下探,街道立体效果展现及关键数据可视化特殊标识。
总结
此次是对大数据认知的一个较为宽泛的阐述,后续会进行各个模块的细化说明。其实数据总是与我们息息相关,通过大数据是为我们提供一个有效的手段来使得各类价值信息呈现更为明确。大数据离我们并不遥远,仍需不断地去探索与发现其潜在价值与意义。