数据仓库技术自诞生至今,经历了五个发展阶段。第一个阶段就是利用批处理技术,把机构内不同来源的信息集成到一个单一的仓库中,形成报表,为公司跨职能或跨产品的决策提供重要参考。而在数据仓库应用的第二阶段,决策者关心的重点发生了转移,从单纯的“发生了什么”转向“为什么会发生”,这个阶段数据仓库所做的工作主要是分析。分析活动的目的就是了解报表数据的涵义,需要对更详细的数据进行各种角度的分析。第二阶段的数据仓库对数据库要提交的问题事先一无所知,采用的方法主要是随机分析。而当一个公司的决策过程得到量化以后,对经营动态的情况以及这种情况为什么发生都会有所体验,下一步就是要将信息用于预测了。很明显,掌握公司即将发生的动向意味着更为积极地管理和实施公司战略。数据仓库发展的第三阶段就是提供数据采集工具,以便利用历史资料创建预测模型。
而数据仓库演变的第四阶段就是动态数据仓库。从第一到第三阶段的数据仓库都以支持企业内部战略性决策为重点,第四阶段则重在战术性决策支持。数据仓库对战略性决策的支持是为企业长期决策提供必需的信息,包括市场细分、产品管理战略、获利性分析、预测和其他信息。战术性决策支持的重点则在企业外部,为执行公司战略的员工提供支持。随着动态数据仓库在决策支持领域中的角色越来越重要,企业实现决策自动化的积极性就越高。在人工操作效果不明显时,为了寻求决策的有效性和连续性,企业就会趋向于采取自动决策。这种对自动化决策提供支持的数据库就是目前数据仓库技术发展的最高阶段,即第五个阶段。
动态数据仓库支持运营智能
在近日举行的2007 Teradata 数据仓库峰会上,记者发现,目前,动态数据仓库正在得到越来越多的认可和应用。因为,企业竞争的加剧,使得企业希望不仅能制定出好的长期战略,还要能通过运营过程中一个个小的执行层面的恰当决策来保证战略的实现。
Teradata公司首席技术官宝立明先生认为,传统的数据仓库技术重点用于支持企业决策者的战略智能,它对实时性的要求相对低一些,而动态数据仓库技术则重点用于支持企业一线员工的运营智能分析,它对数据的实时性要求更高。
动态数据仓库有两大特点,一是动态访问。它是指一线用户可以动态,或者说实时地访问他所需要的信息。传统数据仓库用户只针对高端管理层,一个银行也许是有几十个到几百个用户可以访问。而成千上万的客户经理和客户代表如果要实现同时访问,对传统数据仓库来讲是一个很大的压力。所以动态数据仓库采取相同的技术架构, 却使用不同的技术手段,从而实现动态访问。
二是动态数据加载。传统数据仓库的数据加载与动态数据仓库的数据加载所需的技术设施几乎相同。不同的是传统的数据加载不是实时和连续的,只能是以批量的形式加载。而动态数据仓库的数据则能连续加载并实现一分钟或者几秒钟间隔的近实时加载,从而体现动态。
因此,一般而言,动态数据仓库的“运作”是指为现场当时决策提供信息,例如及时库存补给、包裹发运的日程安排、路径选择等。许多零售商都倾向于由供货方管理库存,自己则拥有一条零售链和众多作为伙伴的供货厂商,其目的是通过更有效的供货链管理来降低库存成本。为了使这种合作获得成功,他就必须向供货商提供有关销售、促销推广、库内存货等详细信息的知情权,之后便可以根据每个商店和每个单品对库存的要求建立并实施有效的生产和交货计划。
以物流行业为例,统筹安排货运车辆和运输路线,这需要进行非常复杂的决策。常常需要将一辆卡车上的部分货物转移到另一辆车上,即重新进行配载,以便以最高的整体效率送抵各自的目的地。当某些卡车晚点时,就要做出决定:是让后继的运输车等待迟到的货物,还是让其按时出发。如果后继车辆按时出发而未等待迟到的包裹,那么迟到包裹的服务等级就会大打折扣。反过来说,等待迟到的包裹则将损害在后继运输车上其他待运包裹的服务等级。
在金融业,动态数据仓库的应用主要是预先预防和控管某些风险,而不是等到风险发生之后再报告,从而将原来的被动管理转化为现在的主动防范。金融行业动态数据仓库的一个应用实例是上海证券交易所,除了风险控管,还涉及到交易行为是否合乎某些规定的问题。上证所通过对数据的分析和整理来判定自己的交易行为,或者是客户的交易行为是否符合法律法规的要求,就也是动态数据仓库合规性的一种体现。
物流行业应用
在物流行业,有一个重要的服务,就是实时查询功能,它不仅可以让客户随时知道自己的包裹已经送到什么位置,更主要的是可以帮助物流企业随时调度,实现资源的最优配置。而这就需要利用动态数据仓库技术的支持。
因此,无论是在国外还是国内,物流行业都比较早地应用了动态数据仓库技术。在2007 Teradata 数据仓库峰会上,中国邮政集团公司信息技术局技术推进部主任高军和DHL首席软件工程师 Karlo Borboa,都谈到了他们应用动态数据仓库的效果。中国邮政的第三代速递系统采用了动态数据仓库技术,用于追踪包裹的去向。中国邮政采用ESB(企业服务总线)技术,将各各业务系统连接到全国中心,全国中心有6个数据仓库节点,用于实施数据查询。包裹从一点送到另一点,在提取包裹的时候要用扫描器获取数据,提取之后把包裹放在运输车上又要再用一次扫描仪获取数据。每个环节都有获取数据的过程,数据获取后,只要几秒钟就可以进入全国数据中心的数据仓库中,这样工作人员就能获得关于这个包裹非常详细的信息,从而追踪包裹的去向。目前,平均每天有50万件包裹的行踪在不断被客户查询,而每次查询的相应时间都在2秒钟以内,并且每次查询都可以提供20个以上的反馈条目。
另外,DHL的新一代扩展跟踪查询系统——NeXtt也同样采用了Teradata的动态数据仓库技术。目前这一系统已经覆盖全球,从事件发生到进入数据仓库,整个过程不超过15分钟。首先,在事件的发生地捕捉数据; 然后传送给分布在全球三个不同地方的报文服务器; 报文服务器每隔5分钟就通过FTP的方式传输到数据仓库的ETL服务器;最后数据经过清洗后即可加载到数据仓库中,以供查询。
【编辑推荐】