云计算数据中心的运维管理-数据中心运维管理平台

现代信息中心已成为人们日常生活中不可缺少的部分，因此信息中心机房设备的运行正常与否就非常关键。在数据中心生命周期中，数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。加强对云计算运维管理的要点以及相应改进方面措施的研究与探讨，以此不断提高IT运维质量，实现高效的运维管理。这就给运维是否到位提出了严格要求。

1 运维在机房中的地位

在数据中心生命周期中，数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理是，为提供符合要求的信息系统服务，而对与该信息系统服务有关的数据中心各项管理对象进行系统地计划、组织、协调与控制，是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负合规性、可用性、经济性、服务性等四大目标。

在信息中心机房配备有运维人员，但大都是“全才”的，即什么都管，尤其是对供电系统大都是由主机运维的人员代管。当电源系统出故障时，此代管人员一问三不知，甚至连配电柜门都没开过。这实际上就是把机房的运维放在了一个次要的地位。

当然也有的地方有所分工，看似重视，实际上也没得到真正地重视。比如说机房设备长时间一直运行正常，这时如果运维人员提出要增添运维方面的测量设备，有的领导就认为多余，很难得到批准。但他不知道机房设备所以长时间一直运行正常，正是由于这些运维人员的细心维护和努力保养所获得的。并不是这些人员每天闲着无事可干，他们的这些工作一般是领导看不见的。比如同样多款的UPS在同样的环境条件下，在某卫星地面站就极少出故障，而在同系统别的地方机房同一家同规格的机器就故障连连。原来是前者的运维人员每天都在细心观察和分析机器面板LCD上显示的数据，一旦发现异常苗头及时采取措施;而后者只限于每天抄写这些数据就算完成任务，使异常苗头不断积累，以致于导致故障。比如断路器在额定闭合状态发现触点处温度高了，就要检查是不是电流过大到超过额定值，如果不是就要检查触点接触是否牢靠，是否需要再紧固一下。这样一来，故障隐患就排除了。如果一直不管不问久而久之就会导致跳闸而使系统崩溃。这都是一些小的动作，都是在巡查中顺便做的事情。所以同是运维人员在巡查，但前者在做事而后者只是走马观花。这就是数据中心可靠与不可靠的区别。

运维人员就像幼儿园的保育员和老师。孩子交到幼儿园后，起主要作用的就是保育员和老师，这时保育员和老师就是主体。机器就好比是幼儿园的孩子，孩子是否健康成长，机器是否正常运行，除去本身的健康(可靠性质量)状况外，那就是运维人员的责任了。由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性，除基于ITIL(IT基础设施库)的常规数据中心运维管理理念之外，以下运维管理方面的内容，需要我们加以重点关注。

2 云计算数据中心运维管理的要点

(1)理清云计算数据中心的运维对象

数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象一般可分成5大类：

①机房环境基础设施

这里主要指的是为保障数据中心所管理的设备正常运行所必需的网络通信、供配电系统、环境系统、消防系统和安保系统等。这部分设备对于用户来说几乎是透明的，比如大多数用户都不会忽略数据中心的供电和制冷。因为这类设备如果发生意外，对依托于该基础设施的应用来说是致命的。

②数据中心所应用的各种设备

这些设备包括存储、服务器、网络设备和安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存传输和通信等功能，是IT服务最核心的部分。

③系统与数据

这部分包括操作系统、数据库、中间环节和应用程序等软件资源，还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样“看得见，摸得着”，但却是IT服务的逻辑载体。

④管理工具

这部分包括基础设施监控软件、IT监控软件、工作流管理平台、报表平台和短信平台等。

这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象的工作情况，并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具，可以直观感受并考证数据中心如何管理好与其直接相关的资源，从而间接地提升了可用性与可靠性。

⑤人员管理

人员管理包括数据中心在内的技术人员、运维人员、管理人员以及提供服务的厂商人员的管理。

人员一方面作为管理的主体负责管理数据中心的运维对象，另一方面也作为管理的对象，支持IT的运行。这类对象与其他运维对象不同，具有很强的主观能动性，其管理的好坏将直接影响到整个运维管理体系，而不仅仅是运维对象本身。

(2)定义各运维对象的运维内容

云计算数据中心资源管理所涵盖的范围很广，包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。这就需要对每一个管理对象的日常维护工作内容有一个明确的定义，定义操作内容、维护频度、对应的责任人，要做到有章可循，责任人可追踪。实现对整个系统全生命周期地追踪管理。

(3)建立信息化的运维管理平台系统和IT服务管理系统

云计算数据中心的运维管理应从数据中心的日常监控入手，事件管理、变更管理、应急预案管理和日常维护管理等方面全方位地进行数据中心的日常监控。实现提前发现问题、消除隐患，首先要有完整的、全方位实时有效的监控系统，并着重监控数据的记录和技术分析。

数据中心的业务可以概括为：通过运行系统来向客户提供服务。没有信息系统的支撑来运行IT系统就如超市里仍然采用手工结账一样不能让顾客满意。信息化的数据中心运维管理平台系统包括如下方面：

①机房环境基础设施监控管理系统;

②IT系统监控管理系统;

③IT服务管理系统。

(4)定制化管理

灵活性、个性化是云服务的显著特征，用户对应用系统有着千差万别的个性化需求，云服务提供商在保证共性需求的基础上，还要满足用户个性化的定制需求，向用户提供灵活和个性化配置的云服务系统。云服务提供商要提供按需变化的服务，就要有反应敏捷的人员、流程和工具，来适应业务变化的需要。云服务下的运维需要更多的灵活性和可伸缩性，可以根据客户与合作伙伴的需要，快速调整资源、服务和基础设施。

(5)自动化管理

IT服务根据负载变化的情况可以自动调整所需的资源，以求在及时响应和节约成本上取得平衡。同时，还考虑到计算能力和规模会越来越大，人工管理资源也会越来越复杂。这些新特性对IT管理自动化能力提出了更高的要求。企业往往希望在不失灵活性的前提下，可以得到更高程度的自动化。为此，云计算数据中心需要部署自动化管理平台，集中管理虚拟化和云计算平台，并提供自定义规则，以定制功能的自动化解决方案，用户通过使用事件触发、数据监控触发等方式来自动化管理，不但节约了人力，同时也提高了响应速度。

(6)用户关系管理

云计算数据中心是为多租户提供IT服务的平台，为了保留和吸引用户，在运维过程中对用户关系管理非常重要。

①服务评审：与客户针对服务情况进行定期或不定期的沟通。每次沟通均应形成沟通记录，以备数据中心对服务进行评价和改进。

②用户满意度调查：用户满意度调查主要包括用户满意度调查的设计、执行和用户满意度调查结果的分析和改进等4个阶段。数据中心可根据用户的特点制定不同的用户满意度调查方案。

③用户抱怨管理：用户抱怨管理规定了数据中心接收用户提出抱怨的途径以及抱怨的相应方式，并留下与事件管理等流程联系的接口。应针对用户抱怨完成分析报告，总结用户抱怨的原因，制定相关的改进措施。为及时应对用户的抱怨，需要有用户抱怨的升级机制，对于严重的用户抱怨，按升级的用户投诉流程进行相应处理。

(7)安全性管理

由于提供服务的系统和数据有可能被转移到用户可掌控的范围之外，云服务的数据安全、隐私保护就成为了用户对云服务最为担忧的方面。云服务引发的安全问题除了包括传统网络与信息安全问题(如系统防护、数据加密、用户访问控制、DoS攻击等)问题外，还包括由集中服务模式所引发的安全问题以及云计算技术引入的安全问题。例如防虚机隔离、多租户数据隔离、残余数据擦除以及多SaaS(SoftwareasaService)应用统一身份认证等问题。要解决云服务引发的安全问题，云服务提供商需要提升用户安全认知、强化服务运营管理和加强安全技术保障等。需要加强用户对不同重要性数据迁移的认知，并在服务合同中强化用户自身的服务帐号保密意识，这可以提升用户对安全的认知。在服务管理方面，要严格设定关键系统的分级分权管理权限并辅之以相应规章制度，同时加强对合作供应商的资格审查与保密教育。加强安全技术保障，以充分利用网络安全、数据加密、身份认证等技术，消除用户对云服务使用的安全担忧，增强用户使用云服务的信心。

(8)流程管理

流程是数据中心运维管理质量的保证。作为客户服务的物理载体，数据中心存在的目的就是要保证服务可以按质、按量地提供符合用户要求的服务。为确保最终提供给用户的服务是符合服务合同的要求，数据中心需要把现在的管理工作抽象成不同的管理流程，并把流程之间的关系、流程的角色、流程的触发点和流程的输入与输出等进行详细定义。通过这种流程的建立，一方面可以使数据中心的人员能够对工作有一个统一的认识，更重要的是通过这些服务工作的流程化，使得整个服务提供过程可被监控和管理，以形成真正意义上的“IT”。服务数据中心建立的管理流程，除应满足数据中心自身特点外，还应能兼顾用户、管理者和服务商与审计机构的需求。由于每个数据中心的实际运维情况与管理目标存在差异，数据中心需要建立的流程也会有所不同。

(9)应急预案管理

应急预案是为确保发生故障事件后，尽快消除紧急事件的不良影响，恢复业务的持续运营而制定的应急处理措施。应急预案的注意事项：

①根据业务影响分析的结果及故障场景的特点编写应急预案，以确保当紧急事件发生后可维持业务继续运作，在重要业务流程中断或发生故障后，在规定时间内，要及时恢复业务运作。

②应急预案除包括特定场景出现后，各部门和第三方的责任与职责外，还应评估复原可接受的总时间。

③应急预案必须经过演练，使相关责任人熟悉应急预案的内容。应急预案应是一个闭环管理系统。从预案的创建、演练、评估到修订应是一个全过程的管理，绝不能为了应付某个演练工作，制定后就束之高阁了。而是应该在实际演练和问题发生时不断地总结和完善。

所以，就全局而言，运维人员的地位不可忽视。只有运维管理好一个数据中心，才能充分发挥数据中心的作用，使之能更好地为云计算提供强大的支持能力。通过有效实施云计算数据中心运维管理，减少人员工作量的同时，还要提高运维人员的工作素质和效率，保障业务人员的工作效率，提高业务系统运行状况，进而提高企业整体的管理效益，同时也提高了用户的满意度，才能实现云计算数据中心的价值最大化。

#p#

3 运维人员应具备的素质

运维管理是需要人去做的，如何才能管理好一个数据中心，才能充分发挥数据中心的作用，使之能更好地为云计算提供强大的支持能力。运维人员应具备什么样的素质才能做到这一点呢?一般说需具备以下三个方面的条件。

(1)深厚的理论基础

运维管理知识来源于学习和不断地研究，比如看书和培训。有了这样的理论基础也就减少了对问题分析的盲目性。否则碰到问题就不知所措，无从下手。如图1是某数据中心

供配电结构原理图。图中，两台120kVAUPS并联后送到两个配电柜，每个配电柜各有35个16A的微型断路器。一天夜里1#配电柜突然有八个输出断路器跳闸。后来检查结果是一个IT电源输入短路，两个IT电源输入保险丝烧断。这就提出了如下的问题：

①为什么三个电源故障导致八个断路器跳闸?

②为什么一个电源短路导致八个断路器跳闸?

③为什么跳闸都发生在1#配电柜，而2#配电柜没有任何反应?

以上的几个问题如何解释?这里面包含了理论、经验和对电路与器件的了解。

又如，某化工单位在定期为240kVAUPS电池放电时，由于负载太小，只好将电池组取下来用假负载放电。放电后又将电池组接回原处，合闸后机器突然爆炸起火。专家检查后，发现电池的极性连接正确，但所有逆变器功率器件和整流器后面的所有电解电容器统统烧毁!于是专家作出了是“机器质量问题”的结论。结果代理商赔了一台新机器。是机器本身的质量问题吗?为什么电池放电前机器一直运行正常，而放电后就起火爆炸呢?就算是质量问题也不会在同一时间所有这些器件都达到报废的程度!这又如何解释?如此等等，如果不站在理论的高度上去分析，单凭经验和直观视觉就一头雾水，就不能做出公允的判断。“机器质量问题”的结论肯定是错的，错在哪里?错在不懂UPS的结构原理。

又如，某机关数据中心购置了4台200kVAUPS做 2(1+1)连接，如图2所示。机器安装后在考机期间，为了检测在市电转换时的输出不间断功能，就在转换开关ZB1由市电1向市电2切换瞬间，分路断路器ZB2和ZB3跳闸，两路并联UPS1和UPS2各坏了1台，检查发现都是可控硅整流器烧毁和控制电路板受损。按道理说由市电1切到市电2是一个很普通的操作，即是UPS最普通的功能之一，为什么会出现如此情况?而且修好后不到一年又一次市电停电时，UPS转为电池供电模式，待市电恢复后UPS的输入电压就不能投入了，一直是逆变器供电。为什么?为了工作再不受影响，用户只好将其淘汰!为什么会这样?调查得知，该机器是打着进口品牌的国产品，而且该生产者是一个国内不知名的小厂。在用户购置该UPS的时候，国内知名的几家UPS制造商也刚刚达到生产该容量的水平，且大都是仿制。不用说这一家也是仿制。问题是为什么的仿制就会出现如此多的问题呢?技术分析留待后面，这里只分析产品和知名厂家的不同，其不同就是仿制技术水平的差别(这可从UPS故障后两个月才修复看出技术水平不佳)、生产平台的差别(机内布线和控制电路板外观粗燥)、元器件等级的差别(更换故障部件不是一次成功)、检测手段的差别(出厂产品做市电切换是常规手段，这次故障说明产品出厂时连最常规的实验都没做)等。由于用户缺乏这方面的知识，没有向厂家提出采取相应的应对措施，才会很快又出现第二次故障。

(2)丰富的实践经验

理论来自学习，但必须和实践经验相结合。一般说经验多数来自教训，所谓失败是成功之母就是这个道理。这里所说的经验是经过反复实践证明的，是经得住考验的。往往好多所谓经验并不是真正的经验而是经历。比如不少人认为零地电压干扰负载，并能举出一些实际例子加以证明。比如举例者说：一次，机器系统工作异常，经查找发现零地电压大于1V，于是就将电源的零线和地线短接，结果异常消除了。当问及是否又将零地短接线断开时，其回答是：“既然工作正常了还断开做什么?”首先这个经验是不完全，只做了一半。一个完整的经验应该是：零线和地线短接后异常消除，接着再将零地短接线断开，如果此时系统工作又出现异常，就说明是零地电压干扰系统;如果将零地短接线断开后系统仍正常工作，就不能说明零地电压干扰系统。这里的误区是当事者听信了传说‘零地电压干扰负载’的影响，在他的心目中已有这个印象，这次的经历正好迎合了这种心理，所以就错误地认为这就是经验。

大都有这样的经历：显像管老式电视机，看的时间长了就会出现影像突然消失，一般的做法是拍打几下电视机外壳，大都是影像出现了。有了这一次的经验，以后只要影像没有了就去拍打外壳。可说是有了多次‘经验’。难道就可以说这个电视机所以经常出现黑屏就是因为‘欠打’吗?很明显这是误解。总有一天将电视机拍打的彻底黑屏为止，或烧掉。

(3)很强的责任心

这一点尤为重要，技术好并不代表责任心强。比如某金融数据中心一位技术很好的运维工程师，开始的确是严格按照机房守则每两小时抄一次UPS显示屏上的数据，几个月下来显示屏上的数据总也不变，他都背熟了。从此机房就再也不去了，按照记忆每两小时填一次表。突然一天半夜机房内市电故障停电，UPS转为电池模式继续为机房IT系统供电，这位工程师早晨上班后仍按习惯没有去机房巡视，就直接将记忆中的数据填入表中，几小时后由于电池的储能枯竭致使UPS输出停电，机房设备全部停止运行。可惜的是后备发电机控制屏的开机旋钮指在“手动”位置上，本来可以避免的故障就这样出现了，给单位造成了严重损失。

再者，责任心强如果制度定得不合适也会导致故障。如在前面“深厚的理论基础”中提到的例子，这位工程师责任心是很强，做到了定时为电池放电保养，但由于制度定的不细，使得只有一个人的情况下单独操作，结果由于误操作而导致故障。在对待高压(不论是直流还是交流)情况下应该是两人在场，一个人操作一个人‘监督’。

4 结束语

数据中心作为信息与信息系统的物理载体，目前主要用于与IT相关的主机、网络、存储等设备和资源的存放、管理。只有运维管理好一个数据中心，才能发挥数据中心的作用，使之能更好地为云计算提供强大的支持能力。通过有效实施云计算数据中心运维管理，降低人员工作量的同时提高运维人员工作效率，保障业务人员的工作效率，提高业务系统运行状况，进而提高企业整体管理效益，同时提高客户满意度，实现云计算数据中心的价值最大化。