华为大数据平台,你了解多少?

企业动态
提到大数据平台,就不得不提Hadoop。Hadoop有三大基因:第一,Hadoop需要share nothing的架构,所以它可以scale-out。第二,它是一个计算存储解耦的架构,好处是计算引擎可以多样化。举个例子,批处理有Hive,交互查询有Spark,机器学习还可以有后面的tensor flow这些深度学习的框架。第三,Hadoop是近数据计算的。因为大数据平台是一个数据密集的计算场景,在这种非场景下,IO会是个瓶颈,所以把计算移动到数据所在地会提升计算的性能。

提到大数据平台,就不得不提Hadoop。Hadoop有三大基因:***,Hadoop需要share nothing的架构,所以它可以scale-out。第二,它是一个计算存储解耦的架构,好处是计算引擎可以多样化。举个例子,批处理有Hive,交互查询有Spark,机器学习还可以有后面的tensor flow这些深度学习的框架。第三,Hadoop是近数据计算的。因为大数据平台是一个数据密集的计算场景,在这种非场景下,IO会是个瓶颈,所以把计算移动到数据所在地会提升计算的性能。

网络技术的发展是推动大数据平台发展的一个关键因素。2012年以前是一个互联网的时代,这个时期互联网公司和电信运营商,掌握着海量的数据,所以他们开始利用Hadoop平台来进行大数据的处理。那时候程序员自己写程序跑在Hadoop平台上来解决应用问题。2012年以后移动互联网的迅猛发展,这使得服务行业率先数字化。例如在金融行业,手机App让用户可以随时随地查询、转账,此时银行开始面临海量数据和高并发的冲击,就需要一个大数据平台来解决这个问题。这也就是为什么华为在2013年面向行业市场推出大数据平台产品FusionInsight。接下来物联网的发展会让更多的实体行业数字化,数据的特征更多是半结构化和非结构化,AI等更多新的搜索技术将能够帮助我们轻松地使用大数据平台。

华为FusionInsight大数据平台是集 Hadoop 生态发行版、大规模并行处理数据库、大数据云服务于一体的融合数据处理与服务平台,拥有端到端全生命周期的解决方案能力。除了提供包括批处理、内存计算、流计算和MPPDB在内的全方位数据处理能力外,还提供数据分析挖掘平台、数据服务平台,帮助用户实现从数据到知识,从知识到智慧的转换,进而帮助用户从海量数据中挖掘数据价值。

此外华为FusionInsight大数据平台是根据行业客户需求进行优化的解决方案。为解决用户在具体场景下的问题,提供许多创新的技术能力,举几个例子:

***个是统一SQL。大数据技术中有很多能够利用SQL语言进行数据处理的组件,比如Hive、SparkSQL、Elk、MPPDB等,当用户对于这些组件进行业务开发时,需要对不同组件分别进行,造成很大的不便。FusionInsight提供统一SQL,对外业务界面只出现一个SQL开发管理界面,通过统一SQL的业务分发层进行业务分发,这样就简化了业务开发。同时,华为还提供了SQL on Hadoop引擎Elk,这个引擎完全兼容SQL 2003标准,无需修改测试脚本就可以通过TPC-DS测试,性能超过开源产品3倍。通过使用统一SQL技术,某大型保险公司实现了用大数据平台替代传统数仓,在复杂计算业务场景下,其性能提升了10-100倍。

第二个是实时搜索。华为FusionInsight率先实现了对Hadoop平台与MPPDB数仓平台的统一全文检索,率先支持SQL on Solr接口,提升业务开发效率5倍以上,***标签索引方案,提升搜索性能3-10倍。目前,实时搜索技术在平安城市和金融行业已经实现商用。在国内某省的平安城市项目中,百亿级规模数据集中查询,实时搜索响应时间<3秒。

第三个是实时决策。与日常生活息息相关的很多业务是需要实时决策的,比如使用银行卡交易过程中的风险控制。由于传统技术处理速度的原因,往往只能实现事后风控。也就是说用户在刷卡完成后,银行才能够检查出来,刚才的交易是否有风险。这样对于银行和客户而言,都会有很大的风险存在。而华为FusionInsight实时决策平台,可以实现毫秒级复杂规则的风险检查,提供百万TIPS的业务处理能力,从而让风险控制从事后变为事中,并确保端到端的交易可在500毫秒内完成,不影响交易用户的体验。

第四个是图分析技术。在生活中有很多时候是需要进行用户的关系分析来进行风险控制和业务处理的。如果我们的客户中有一个是VIP客户,那么他的朋友符合VIP客户条件的可能性就会很大。因此如果我们能够通过关系分析技术找到他的朋友圈,在针对他的朋友进行针对性营销,那么业务成功的可能性也就会大大增加。但是,传统的数据库技术在处理客户关系发现时很困难,某公司曾经做过一个测试,想在2000万客户中发现客户间的关系信息,但是一直无法算出来。但是用图分析技术就可以很好解决这一类问题。因为在图数据库中,用户就是点,用户关系就是边,发现用户关系就变成了发现点与点间需要几条边的问题。华为的分布式图数据库,能够实现万亿顶点百亿边的实时查询,从而很快发现用户关系。在某项目中,华为帮助客户实现了13.7亿条关系图谱数据,3层关系查询秒级响应,从而大大提高了业务响应的速度。

***,华为大数据平台是有着丰富的市场实践的产品。华为FusionInsight大数据平台已在40+个国家,总计700+项目中实现了成功商用。客户包括中国石油、一汽集团、中国商飞、工商银行、招商银行、中国移动、西班牙电信等众多世界500强企业。同时华为公司在全球建成有13个开放实验室,在这里华为与各国200+合作伙伴进行大数据方案的联合创新,包括SAP、埃森哲、IBM、宇信科技、中软国际等,共同推动大数据技术在各行各业的应用。

数博会正在进行中,相约数博会,与华为共同开启大数据时代美好未来!

责任编辑:润月 来源: 华为
相关推荐

2019-04-30 14:19:24

Kafka大数据分布式流平台

2018-01-02 09:31:12

大数据数据互联网

2018-02-09 16:58:03

华为

2017-03-28 18:25:59

华为

2020-03-25 08:47:22

智能边缘边缘计算网络

2015-05-14 15:56:27

2023-10-29 08:35:47

AndroidAOP编程

2012-12-27 10:58:24

KVMKVM概念

2023-10-25 08:17:06

Lite模式代理类

2021-06-06 18:22:04

PprofGopher逻辑

2014-01-06 09:13:12

2013-10-21 17:57:54

2022-06-07 07:37:40

线程进程开发

2022-02-08 12:06:12

云计算

2023-09-07 10:26:50

接口测试自动化测试

2019-08-07 17:18:18

云计算云原生函数

2011-08-23 11:03:35

ATM

2023-08-17 10:12:04

前端整洁架构

2023-12-24 12:56:36

协程

2015-11-09 10:44:37

DevOpsIT运维
点赞
收藏

51CTO技术栈公众号