苹果,是代表一种水果,还是一部电影,亦或是苹果公司呢?同样的文字却代表着不同的意思,这就要求大数据分析要能够理解在不同环境下文字的正确含义。如今,数据类型逐渐增多,企业不能单纯的收集分析内部系统中的结构化数据,更应该看到外部的非结构化数据,例如音频、视频、社交媒体、传感器等数据的价值。企业如何利用这些不同类型的数据进行分析,已然成为各行各业的巨大挑战。
惠普中国区副总裁、惠普软件集团大中华区总经理于志伟认为,“目前,很多企业都不知道怎样有效的利用大数据,存储了非结构化数据后却不知道怎样利用,越来越多的非结构化数据无法被企业控制,但非结构化数据对决策的影响会更加重要。”
惠普中国区副总裁、惠普软件集团大中华区总经理于志伟
近日,惠普推出了新版Autonomy中的组件IDOL 10.5,让用户可以分析各种类型的数据,通过对上下文的语义环境理解,让非结构化数据变成可以理解的内容。通过连接器,Autonomy可以连接到400到500种不同的系统。只要这些信息是公开的,惠普就可以对这些数据进行分析。
Autonomy是黏稠剂
惠普去年推出大数据分析平台HAVEn,包括Hadoop、Autonomy、Vertica、Arcsight以及各种应用组件。如今大数据的数量之大要求企业必须有低成本的存储能力,Hadoop就可以解决大规模的存储问题;当存储后,企业需要从这些数据中识别出规律,找到数据的模式,这就是Autonomy发挥的作用,让非结构化数据变成可以理解的内容;第三步,当数据理解后,就要对其进行大规模、快速分析,Vertica就派上用场了。
作为HAVEn平台中的一部分,惠普公司软件集团Autonomy信息分析部副总裁兼总经理Rohit de Souza认为,Autonomy起到了黏稠剂的作用。Autonomy是为Hadoop开发的,用户可以直接在Hadoop中运行Autonomy,并且数据不需移动到数据仓库中。Rohit de Souza表示,在信息爆炸式增长的去试下,如果把海量数据移动才能发现其价值,就会增加成本和难度,因此Autonomy不需要借助数据库,只要访问权,就可以在数据所在的位置系统中进行分析。
惠普公司软件集团Autonomy信息分析部副总裁兼总经理Rohit de Souza
HP IDOL for Hadoop把Hadoop从某种程度上较窄的传统数据存储仓库变成强大的智能分析平台,能够从PB级的数据中获得洞察。通过把情感分析、集群和实体抽取等强大的HP IDOL功能嵌入Hadoop节点,企业可以进行先进的客户、安全、运营分析等等。
通过在HP ArcSight 企业安全管理(HP ArcSight Enterprise Security Manager)内分析非机构化电子邮件、社交媒体数据以及安全、应用和运营事件,面向HP ArcSight的HP IDOL电子邮件分析包和IDOL社交媒体分析包能帮助用户预防并管理内部威胁、黑客威胁和恶意通信。
不能一口吃下一头大象
大数据的到来,让很多企业看到希望,也面临着挑战。如果利用好大数据,从数据中获取更大的价值,是每个企业都关心的事情。但是,面对如此海量的数据,该如何开始呢?
Rohit de Souza表示,“如果要吃下一头大象,要一口一口吃下去。任何企业要想直接跳跃到分析所有信息,将所有信息汇总做大数据分析,那肯定要失败的。”Rohit de Souza建议,企业要选取一个没有充分利用的数据类型,从这个数据类型开始,一步步慢慢增加不同数据类型,逐步到位。
大数据对于企业来说越来越重要,涵盖的环节也会越来越多,选择技术涵盖比较广的企业,在将来扩展时会省心很多。于志伟认为,惠普大数据有三大特点,首先是全面性,从软件、硬件到服务是整体的解决方案,此外还有很多最佳行业实践;第二是技术方面,惠普拥有众多技术的知识产权;第三是灵活性,于志伟认为,企业可以在任何一个点开展自己的大数据之旅,而惠普拥有丰富的本地资源支持,提供适合客户的解决方案。
不取代行业专家
每个行业都有不同的特点,因此,在做大数据分析时,需要量体裁衣,制定适合行业的模型,从而达到最优结果。很多厂商对外宣传,通过大数据分析取代行业专家,例如,今后不需要医生给患者看病,通过大数据分析可以直接开药诊断等。
但是,Rohit de Souza却不认同。“惠普的目的不是要取代行业专家,而是与行业中的企业合作,更加有效的动用行业特定的专业知识,建立不同行业的、涵盖知识产权的数据库,从而为企业提供有针对性的解决方案和服务。”
目前,很多不同行业的企业都在使用。中国移动使用HP IDOL搜索引擎,可以搜索任何收集里的应用是数据;CCTV未来广告通过使用视频分析功能捕捉商标出现次数,同时结合社交媒体的情感分析,改变广告营销方法;通过摄像头对马路上的监控,阿富汗政府通过惠普Autonomy的视频分析功能,分析在哪些路段会出现恐怖事件,发出预警从而进行预防;斯坦福大学儿童医院,使用IDOL通读所有病例,快速找出不同药品之间的交叉影响,帮助医生节省了85%的时间。