当大数据遇上在线旅游网站会撞出什么样的火花?

译文
系统
大数据和高速分析引擎帮助一家旅行社迅速满足潜在游客的查询请求,以免他们失去了耐心,转而奔向另一个网站。

  【51CTO快译】一家德国知名旅游公司请总部设在科隆的咨询公司empulse帮助为其设计在线旅游网站时,该公司应承了下来。毕竟,这家公司的顾问为邮政部门提供过电子化跟踪方面的咨询服务,为电力公司提供过智能电表方面的咨询服务。如此看来,为旅游公司提供咨询服务应该也不难吧?

  结果发现,难就难在响应时间--这家旅行社希望查询结果在一秒或更短时间内返回来,因为只要时间一长,客户就会掉头而去,寻找另一家网站。也就是说,每延迟一秒,这家旅行社的损失就越大。

  empulse公司总经理Michael Hummel表示,该公司的开发人员曾经试过几款大数据解决方案,包括Hadoop、列式数据库技术、甲骨文和微软的FAST(文件和设置转移),但是没有一个接近这家旅行社需要的响应时间。

  "我们所能构建的速度最快的系统搜遍2亿条记录也要用时6.5秒。这个速度实在太慢了,而且还要耗费大量的计算机资源。如果你每秒想要运行的不是一个查询,而是一千个查询,那就需要非常高的吞吐量以及数据处理方面更高的效率。我们试过的所有系统都需要数量众多的服务器,那样成本太高了,承担不了。"

  于是,他们决定自己构建一套系统,先是从核心部分入手:数据结构、算法、索引以及新数据的持续性装入,而且为这款产品开办了一家新公司:ParStream。

  现在这家在线旅行社每秒能够处理1000个查询,能够以20个不同的参数查询180亿个旅游优惠信息,并且在不到一秒的时间内返回响应结果。

  Hummel说:"由于不同的航班、酒店、行程时间和餐饮计划,我们在德国市场有数量巨大的旅游优惠信息。每个优惠信息有不同的价格,你得把它们全部都搜遍,才能找到***惠的方案。"

  "我们开发完毕后,认识到自己为大数据领域提供了一款实时数据分析产品,这正是ParStream的由来。这家公司认为,能够在非常短的时间内获得动态更新的信息的查询结果,这有着非常广泛的应用价值,绝不仅仅局限于为没多少耐心的零售客户返回结果,因为这让业务分析员、营销和广告人员等用户可以查询更多的问题,然后制定和完善促销模式。"

  "谁也不想长时间地等待结果返回。大多数人以认为,大数据就是数十亿条记录,不过是静态的。这可大错特错。大数据是动态的。新数据每时每刻都在生成;你拿来这些新数据后,不得不与历史数据一起处理。"

  ParStream的技术结合了处理器和英伟达的Fermi图形处理器(GPU),同样非常高效。德国***的搜索引擎优化软件供应商SearchMetrics使用高级技术,为想在谷歌、必应及其他搜索引擎提供的结果中提高搜索排名的公司分析搜索引擎结果。其一整套搜索引擎工具使用7500万个关键字和1亿个域,还使用 ParStream实现高效处理。Hummel表示,这家公司之前一直在使用100余台服务器;借助ParStream的技术,现在它只用四台服务器就能完成同样的任务。

  大型电子商务网站上的庞大流量为调整网页设计和近乎实时提供的优惠活动提供了机会。公司可以看到来自赞助商链接、网络广告和电子邮件广告活动的成效。Hummel表示,德国etracker公司做的就是这项工作。

  "etracker使用ParStream来控制广告活动--访客点击他们监控的任何一个网站到点击出现在所有报表中,这之间的***延迟时间是30秒;也就是说,如果你分析自己的网站,就能看到半分钟之前的流量。使用etracker广告活动控制技术的客户可以实时监控广告活动的效果,如果广告活动需要改进,可以立即采取相应对策。"

  这让电子商务公司得以在开展广告活动的过程中监控和修改广告活动,调整活动以获得***效果,密切关注效果,并且作进一步的改变。

  不是只有在线监控得益于非常快的分析速度--业务分析员也受益匪浅,因为他们可以运行更多的查询、测试更多的假设情形,并且不断改进分析机制。

  "快速的大数据分析解决方案能帮助整个公司更快地了解情况、更快地变化及应对新趋势,这可以带来更有利的竞争地位。"

  ParStream在数据库设计方面研发出了几项创新技术,以获得这样的性能。一个关键步骤就是,它简化了数据装入,并实现了并行处理。

  Hummel说:"大数据的移动是个大问题。你现在的数据量比10年前多了1000倍,而且数据量的增幅超过计算机处理速度的增幅。你一定要进行并行处理,把工作分摊到多台机器上。我们在查询方面就这么做,我们在导入数据时也这么做。"实时导入数据还减少了硬件开销。由于数据一直在导入,所以不需要额外硬件,就能满足夜间批处理的峰值需求。

  快速响应的其他关键是可以在数据导入时或可以构建的一个非常灵活的索引。ParStream开发了经过压缩的索引,能够在压缩状态下运行。Hummel表示,此外,ParStream的算法比Hadoop使用的算法要高效得多。

  HPC Wire网站的编辑Michael Feldman在今年6月于德国汉堡举行的国际超级计算大会前夕采访了ParStream,得出了这个结论:这家公司的目的是"以高性能计算(HPC)的性能来分析大数据。"

  Hummel举了个零售行业的假设例子:

  美国的一家衣服销售商可以细分从北卡罗来纳州访问其网页,在过去两周花了10美元买衣服的客户。它能查看谁在上午7点到中午这个时间段访问网站,分析他们的点击模式、看看他们在购买什么样的衣服,然后着重关注浏览休闲服的那些人,***开展针对他们的广告活动,就促销那些衣服,然后跟踪效果。

  "如果你能够分析大数据以及网站上的数十亿次点击,那么这种针对性极强的广告活动正是你所需要的。"

  原文链接:http://www.forbes.com/sites/tomgroenfeldt/2012/01/23/big-data-meets-online-travel-20-billion-offers-one-second-response-time/

责任编辑:黄丹 来源: 51CTO.com
相关推荐

2018-09-26 20:01:17

金融大数据数据平台

2018-06-13 13:25:01

2021-04-06 06:02:51

denoVite 工具

2021-03-11 14:28:07

云计算云原生边缘计算

2018-04-04 12:34:44

云计算区块链融合

2020-04-09 16:16:33

新基建智慧城市物联网

2016-10-18 11:10:12

存储

2022-02-11 14:23:02

人工智能AI

2017-12-15 12:49:50

2018-11-12 13:27:12

教育区块链学习

2022-08-04 13:43:52

人工智能文艺创作诗歌

2018-08-07 09:38:06

2020-08-17 17:16:21

5G网络技术

2016-07-07 10:33:53

思科DNA视频

2024-08-08 10:17:21

PostgreSQLGo语言

2018-01-23 13:57:46

AI

2015-01-07 15:49:21

大数据SSD

2022-08-29 20:13:28

物联网IPV6

2024-06-07 09:19:00

AIjson字符串

2013-08-22 11:08:27

大数据商业只能Hadoop
点赞
收藏

51CTO技术栈公众号