随着企业越来越关注大数据,能够在一个安全的“沙箱”测试环境中对数据处理和查询能力进行实验,这对于企业IT部门与最终用户来说都是非常重要的。然而,建立一个安全、合适的大数据沙箱测试环境,和创建一个针对交易型数据及报告的传统测试环境是不同的。下文将列出由Transworld Data总裁Mary Shacklett总结的10个实施沙箱项目的注意事项。
1、数据集市还是主数据库?
数据库管理员需要从早期就做出决定,决定是让测试沙箱使用直接来自生产用的主数据库中的数据,亦或者***解决方案是将这些数据复制或者片段剥离到独立的数据集市中,仅供测试使用。完整数据库的好处是,可以测试用于生产中实际使用的数据,这样测试结果更加精确。缺点是,可能会和生产本身产生数据冲突。有了数据集市的战略,你不用冒着与生产数据发生冲突的风险,但是可能需要定期更新数据,以保持与生产数据的同步,更加接近于生产环境。
2、工作日程
日程安排是大数据沙箱活动最重要的一件事,这确保了所有沙箱操作都是在***状态下运行的,可通过同时安排一组较小的任务和一个更大的任务同时运行来实现。对于IT来说,这个过程的关键是坐下来和各种使用沙箱的用户进行交流,这样每个人都对日程安排有一个前期的了解,并清楚其背后的原理以及他们的工作期待运行时间。
3、设置限制
如果几个月的时间过去了却没有使用一个特定的数据集市或者沙箱,那么企业用户及IT部门就应该制订一个可接受的策略以净化这些资源,这样就能重新放到一个可以针对其他活动重新配置的资源池中。这个测试环境应该和生产环境一样被有效管理起来,这样资源只有正处于使用状态的时候才会被调用。
4、使用纯净数据
大数据管道工作的一个前提,应该是准备好数据并净化数据,这样在应用数据集市解决方案时,才能确保数据具备用于测试的质量。在一个不完整、不准确、甚至是遭到破坏的测试环境中使用数据是一个坏习惯——因为数据在放到测试区域之前并不安全。要学会摒弃这些坏习惯。
5、监控资源
假设大数据资源都集中在数据中心内,IT部门应该设置资源权限并监控沙箱使用率。一个需要经常密切关注的问题是:随着加入沙箱活动的终端用户部门越来越多,会导致出现过量配置的问题。
6、注意项目重叠问题
在某些时候,成立一个跟踪整个公司内各种正在进行中的沙箱项目的“监督委员会”是很有必要的,这样可以确保不会出现重叠或者冗余的项目。
7、尝试将计算资源交给IT部门集中管理
有些企业做大数据项目,先从特定的一些部门开始,然后马上会发现他们对付不了大数据,接着又去做他们自己的日常功能工作,管理计算资源。最终,他们把设备搬到数据中心,让IT部门自行管理。这让他们把精力专注在业务上,这也是大数据可以带来的价值。
8、组建大数据团队
即使在沙箱的测试项目中,让处理大数据的专业团队来辅助完成任务也是很重要的。通常情况下,这个团队应当由业务分析师、数据科学家以及一名具备软硬件资源优化能力、能与数据库专家协作的IT专家组成。
9、不要忘记业务价值目标
在将创新的想法融入进沙箱项目中时,不要完全忘记了最初的业务价值目标是什么。
10、明确大数据沙箱的定义
很多来自终端企业的参与者并不知道“沙箱”意味着什么。与早期的沙箱一样,大数据沙箱的目的是自由发挥,做与大数据相关的实验——但这是带有一定的目的性的。这个有目的的项目应该遵守沙箱实验的基本规则,例如什么时候、在哪儿以及如何使用沙箱,用实验与测试给企业带来有意义、有商业价值的结果。