美国癌症协会拥抱大数据技术

译文
大数据
2012年,全美规模最大的非盈利性组织美国癌症协会意识到,其必须对原本过于分散的组织结构加以调整。有鉴于此,癌症协会以亚特兰大为核心对国内十三个分支机构进行合并(原本为一个机构总部外加十二个分支组织,每一个都拥有自己的慈善运作体系),形成了一个中央、十二个具体部门的全新格局。

美国癌症协会很快发现,其IT机构也需要在此次调整过程中进行升级。新的中央式Siebel数据库当中包含有4000个对象与150套表格,但负责承载的惠普UX硬件已经拥有长达八年的运行历史。整理一份报告平均需要耗费四个小时,这意味着用户需要在报告处理的同时、利用另一台计算机处理其它事务以避免时间浪费。

[[129933]]

2013年3月,美国癌症协会聘请Blake Sanders加入进来,而他确实不负众望、带来了他在商业分析与数据仓库领域积累二十年所获得的宝贵经验。作为癌症协会全新职称“架构与数据管理副总裁”的首位人选,他的工作是帮助该协会为即将到来的大数据未来做好准备。他决定从数据仓库设备起步,首先解决速度与数据延迟问题,并以此为基础以见招拆招的方式逐步应对数据复杂性难题。

“我们经历了相当标准的招标流程,”Sanders回忆道。“我们以刚性为中心作出了一系列规划。相关各方都收到了我们发出的模板,其中包含有关于当前状况与待解决问题的描述,要求他们根据实际情况进行填写。”Sanders和他的团队在收集到充足的信息之后,再将这份标书发送给四家供应商:甲骨文/Exadata、微软、IBM/Netezza以及Teradata。

提交的问题包括“贵方的平台是否允许用户集成这些特定ETL(即提取、转换与加载)工具?”等。这些问题与其它系统、数据建模软件、维护能力与维护机制、人员要求以及同ETL之外其它工具集的集成息息相关。经过几个月的调查,Sanders与他的团队充分评估并比对了各厂商给出方案。最终,他们将概念验证供应商人选压缩为两家:Teradata与Netezza。

“我们很清楚,我们无法同时应对四套概念验证项目,”Sanders表示。“事实上没有哪家厂商能够完全解决我们的全部问题,而这正是我们需要验证的重点:最终解决方案必须要给我们的运营状态带来显著提升。”其中包括硬件、软件、安装以及服务,整个项目的预算接近100万美元。

“整理一份报告平均需要耗费四个小时,这意味着用户需要在报告处理的同时、利用另一台计算机处理其它事务以避免时间浪费。”

Sanders曾于2006年在他的上一份工作中安装过Netezza(如今已经被正式更名为IBM Pure Data System for Analytics),当时的实际结果令他非常满意。不过出于谨慎的工作态度,他仍然全心全意监督着Netezza系统在美国癌症协会当中的实际表现。

#p#

意义重大的概念验证工作

虽然美国癌症协会的各位捐助者们理解技术方案在研究支持领域的重要意义,但在他们的固有印象当中癌症协会中的技术主体应该由医生及生物实验室来充当、而非计算机设备,Sanders表示。“人们往往认为用于此类技术升级的捐赠款项其实无甚价值。”

要成为一位出色的管理者,他需要证明计算机能够带来比前期投入更为可观的实际回报,因此全程追踪整体持有成本以及投资回报率就变得至关重要。此外,他还希望帮助科研人员摆脱苦等数据结果的旧日噩梦,转而帮助他们随时轻松运用自己需要的数据。

Sanders提出了他的概念验证流程以及目标:

1. 明确支持业务需求

2. 建立并追踪成功指标

3. 充分发掘产品特性

4. 区分宣传效果(营销宣传)与实际水平

5. 检查“特殊用例”

6. 尝试证明投资回报水平

考虑到未来将很难重新回归现有方案并额外添加技术元素,Sanders需要在快速解决现有问题的同时、为未来三到五年的预期需求构建好实现基础。

对于生产效率提升这样的模糊概念来说,我们往往很难给出一个具体的量化数字,但Sanders一直在实际层面给出结论,例如整个机构每周能够借此节约多少小时的工作时长。效率的提升可能允许管理层削减员工数量,或者在无需增加人手的前提下建立新的研究项目。这些细节都将被汇总为一套图表,用于标示累积性成本节约以及特殊用例。

竞争仍在继续

Netezza与Teradata两家公司于同一周在美国癌症协会的数据中心分别建立起自己的系统。Sanders不希望任何数据被传输至内部环境之外,因此他无法借力于云服务以及远程测试。除此之外,全部调整工作都由他的团队亲手完成——而非供应商方负责。

美国癌症协会目前管理的数据来自7600万个源头(其中包括捐助者、志愿者以及工作人员等等),且每年由超过6000次慈善活动处收集得出。根据Sanders的说法,其整体数据集规模“却出乎意料地小,当前数据仅为2.5TB。”

Sanders从全部150套表中提取了约20套(包含4000个对象)以构建测试数据集,并把这套数据集同时交付给两家供应商。与此同时,数据的筹备过程也相当于对未来全部数据迁移至新系统进行的一次预演。

相较于将现有内部IT团队分别拆分为Netezza组与Teradata组,Sanders更倾向于引导全部团队成员同时使用这两套系统,这样每个人都能够在后期评估过程中切身体会到二者之间的差别。两套系统在评估流程中的每个执行步骤都完全一致,这样Sanders才能保证以公平公正的方式比较出双方的优劣。

整个概念验证流程持续了大约六周。这两套系统分别需要载入数据、提供功能及管理细节信息,并执行查询优化。双方都运行有总计5套小型、中型以及大型查询任务,同时监控哪些表正处于使用状态。Sanders给此次评估项目想出了一条颇具“快餐”风格的口号:“更快、更新、更好。”

Sanders和他的癌症协会技术团队构建了一套脚本来完成日常工作,其中包括设置数据库、导入数据集、评估管理工具可用性以及测试响应时间等等。在测试的同时,脚本还会就索引及汇聚任务对系统作出调整。除了现有任务之外,他们还多花了一个礼拜来测试一部分虽然目前尚不存在、但未来也许必要的使用情况。

生产效率的提升可谓立竿见影。查询时间由过去陈旧系统上的平均四个小时缩短到了新系统上的约四十秒。没错,速度较原先提升了370倍。相较于原本每周只能运行1000份报告,如今他们能够在同样的周期当中运行4990份报告。从员工工作时间节约的角度看,单此一项每周就帮助癌症协会节省下11万9700美元。

而且用户们赫然发现,自己能够以前所未有的方式轻松处理报告内容——正如他们处理普通电子表格那样。种种未曾出现过的轻松方式让用户随意查看数据内容。Sanders指出,这种速度方面的提升甚至带来了行为模式的转变,用户现在能够在几秒之内从多种角度出发针对数据发起查询。

除此之外,用户还要求新系统能够消除一部分原有硬性使用成本。当报告处理需要耗时数小时时,用户需要另一套系统来处理其它任务,从而避免发生无所事事的状况。有些用户甚至需要在自己的办公桌上部署三套系统。其它硬性成本缩减与新系统投资回报保障方式还包括降低陈旧惠普UX设备所带来的甲骨文产品许可及维护费用。经过几年的累积成本节约,新系统的购买价格将被全部抵消,而且在此之后节约效果仍将继续维持。

Sanders认为,Netezza在这方面的表现更为出色。而且事实证明,Netezza曾于2006年拥有的成本节约表现至今也依然值得信赖。

#p#

功能比较

概念验证的第二阶段旨在面向未来需求筹划实现基础。他基本上是以目前的数据仓库执行任务对设备进行测试,但他希望在未来的三到五年当中构建起真正的大数据系统。美国癌症协会需要迎接Hadoop并监控实时数据动向,例如面向志愿者以及生命接力慈善活动参与者对网站进行个性化设计。

Netezza拥有新型硬件,且较之Sanders于2006年所使用的机型在速度方面更为出色,但其软件仍然与多年前保持着同样的水平。相比之下,Teredata的14.10操作系统则表现出远超过原有版本的显著提升。“看起来他们在软件创新方面的态度要比Netezza积极得多,”Sanders评价道。“Netezza已经占据了领先地位,但在软件创新角度看我可能更倾向于选择Teradata。”

整个项目的最终价格被确定为75万美元左右。Sanders研究得出的“节点计算能力”规模方案对不同硬件要求作出了均衡,Netezza与Teradata两家厂商的价格甚至保持一致。

就目前来看,一切顺利

整个招标/投标过程持续了大约六个月,而Teradata硬件于2013年10月中旬正式安装到位。到同年12月,美国癌症协会在生产流程中开始每周对其Siebel报告系统进行更新。到次年1月,这一更新周期被进一步缩短为每天。

根据Sanders的介绍,自那时开始,美国癌症协会新增了财务、规划与会计部门,并针对营销团队提供数据资源以实现基础性活动分析。

“一年之后,我们仍然将查询性能保持在原有数据架构的350到370倍水平,并进一步简化整套数据模型以确保其更适合实现临时性查询操作。维护工作也不再是难以打理的问题。在这一年当中,我们从未遭遇过任何系统宕机状况,而全部维护任务也都能够轻松完成。我们下一步要做的是变更Siebel应用程序数据的捕捉方式,从而以近实时方式将其加载至Teradata系统当中,从而深入改善数据处理流程,最终缩减我们的批量隔离负载窗口。我们将有能力从应用程序当中直接载入数据,并在数据内容发生变化时生成报告,而这将以前所未有的方式为业务带来出色的主动监控能力,”Sanders指出。

原文链接:

http://www.networkworld.com/article/2895379/big-data-business-intelligence/american-cancer-society-embraces-big-data.html

原文标题:American Cancer Society embraces Big Data

责任编辑:王雪燕 来源: 51CTO
相关推荐

2013-12-02 10:02:30

大数据时代

2016-03-28 10:24:49

数据湖大数据技术开源

2018-01-18 08:52:14

大数据癌症感染

2013-01-21 10:55:52

大数据Ayasdi拓扑数据

2016-10-25 08:38:53

大数据DNA 变种癌症

2014-06-05 11:27:17

JMP大数据

2020-10-22 15:21:48

大数据人工智能隐私

2015-01-13 16:26:05

大数据Informatica

2023-04-24 21:17:54

大数据数据挖掘

2013-07-10 10:17:07

2014-10-09 10:20:42

大数据癌症

2013-03-29 10:23:02

数据库癌症治疗

2013-08-15 10:13:51

2014-05-08 15:28:39

2015-11-27 14:38:46

中国软件资讯网

2013-04-02 11:27:35

大数据云计算

2016-05-05 16:38:13

大数据算法

2013-06-14 10:15:45

大数据

2021-11-02 12:15:17

勒索软件攻击网络安全

2022-04-27 13:55:22

网络攻击勒索软件
点赞
收藏

51CTO技术栈公众号