多数情况下,虚拟化问题将会引起部分数据丢失。这些数据很可能只是一些交易信息,但即使是很小的虚拟化问题也可能转变为紧急的问题。
金融机构First Flight Federal Credit Union的COOTodd Erickson,回忆起了痛苦经历,是涉及110TB数据的EMC Symmetrix存储。
“时间是下午3:30分,当时有些日常维护工作在运行,此时约有500台服务器与其连接的存储发送了中断,此过程大约持续了30秒,”他说,“这简直就是杯具。”
如何防止数据丢失
为了避免有潜在的严重性事故发生,***的办法就是用尽所能来解决虚拟化问题,在***时间就可以避免数据丢失和停机时间。在生产环境实施部署和修改配置之前,应对每一个应用进行长时间的模拟与验证性测试。
将每个应用在近似于生产的环境下进行测试,以测量出它对各种资源的消耗。之后规划它可以被分配到哪台物理主机上,并提前预知此虚拟机将有可能被迁移和重启在哪台物理主机上。
“拥有一个[质量保证]环境是相当必要的,即便你无法在系统后端实现多路虚拟SAN,” I-Business网络有限责任公司的技术服务总监Ty Hacker说。
像虚拟化供应商及其他已成功利用虚拟化技术的人员,就能够利用各种技巧和***实践方法来避免在生产环境部署过程中出现数据丢失,停机时间和其他由于虚拟化而带来的问题。另外一种方式是对关键生产应用可采用虚拟化的高可用性(HA)技术来阻止其发生故障。
#p#
利用HA高可用技术以防止数据丢失和停机时间
这个技术应该包括服务器虚拟化技术,即虚拟机需要两个以上的物理服务器来实现冗余,同时采用特殊的同步软件来保证各实例的一致性,这样其中一台物理服务器发生故障,其他服务器也可以替代它。对于应用不太重要的工作负载,使用此技术可将发生故障的应用转移到指定的服务器,或者可以在存储间转移故障应用。
系统管理员应定期测试他们的HA高可用环境,确定可以按期望的那样运行,特别是当数据中心发生了任何变化时。例如,对于一个非常关键的应用,它由三台服务器组成集群来提供足够的性能开销。测试这样的场景,以确保当其中一台服务器宕机后,其余两台服务器也可以提供必要的性能开销。这可能意味着拔出网线或按一下电源按钮都可以引发这样严重的事故。
SAN冗余链路接入应该是任何虚拟数据中心的一个组成部分,而且它能够对快照和复制技术产生积极的作用。但是也不要忽略服务器上本地存储的重要性。
“我知道,虚拟化[部署]文章介绍了将会从SAN直接启动,这里是不会出现问题的——事实上它也是,”埃里克森说。
具备可用的本地磁盘容量或者本地磁盘有实时镜像都是很有用的,他补充说。
#p#
虚拟化:可行之路
由于还没有找到切实可行的方式来在短时间之内恢复到虚拟化之前的备份状态,所以大多企业为了避免问题的扩散,而先在非关键应用系统中实施虚拟化,获得实施经验,然后再按照步骤在更重要的一些应用系统中实施虚拟化。
最终,绝大多数的企业将完全走上虚拟化之路。
“在我的工作环境和另外两个我工作的地方,在任何情况下,我们都不曾考虑以取消虚拟化来解决问题,”埃里克森说。
与其当虚拟化出现问题时进行分析,还不如先使用能够提供深入观察和控制的管理工具来制定出有效的排错方法,只有这才能满足IT的运维要求。
“需要非常熟悉相关命令,” Hacker说,“通过基于WEB方式或者客户端管理工具都可以让你直接连上主机。”
他补充说,在基于Citrix或者VMware环境平台上,通过精简的图形界面管理端(GUI)是无法获得主机大部分必要功能的信息。
尽管供应商可以提供资源来解决虚拟化问题,但是专家们警告不要过分依赖于它们。
“你的技术团队中的相关人员确实需要了解虚拟化的内部运行原理,”埃里克森说。 “虚拟化供应商不会像你也一样来关心你的业务和数据。”
对于任何虚拟化故障,IT人员应该是“***责任人”,因为它们可以迅速地解决相对简单的问题。同时,他们也可以快速地与供应商沟通更加实质性的问题,这要比单纯等待外来顾问到场解决问题更加有效。
在某些情况下,有第三方服务商或VAR来支持可能要比直接与供应商联系更佳有效,特别是如果在你当初实施虚拟化时有VAR加入。如果有需要,VAR也总是会与供应商保持联系。
【编辑推荐】