随着金融科技的快速发展,企业内IT设备数量持续增加,对业务系统及设备的运维管理能力的要求也越来越高。面对服务器、存储、交换机等设备数量巨大、品类繁多、分布广泛的情况,如何实现IT设备的集中管控,资源精细化管理,资产全生命周期管理,成为企业的迫切要解决的问题,也是支持安全运营和数字化转型的关键。
设备带外管理概述
图1 设备带外管理端口图示
传统的IT设备监控和管理方式主要以人工操作为主,存在设备告警发现不及时、设备资产台账管理混乱、设备配置信息不准确等问题,导致设备故障处置效率低,进而影响业务系统稳定运行。
带外管理(out-of-band management)是通过独立于业务的专用管理端口,对服务器、存储、交换机等设备进行远程管控的管理模式,实现远程访问控制、配置数据读取、日志收集、故障告警、能耗数据监测等功能。带外管理网络与业务数据网络物理隔离,是一条便捷、安全的“应急车道”,即便在设备宕机或运维网络故障情况下,运维人员依然可以快速连接设备,进行远程监测和管理。带外管理的出现大大提高了企业IT设备故障的应急处置能力,减少了人工运营成本,进一步提升了IT运维效率。
设备带外集中管控的探索与实践
G行于2020年搭建了设备带外集中管控平台,通过独立的设备带外网络,对上万余台服务器、存储、交换机设备进行集中管控,提供硬件集中监控管理、设备资产管理、设备资产自动化巡检、裸金属自动化部署等功能,构建了资产管理数字化、资源运营精细化、平台建设智能化的设备管理体系,实现资产的全生命周期管理,提供准确唯一的设备数据源,实现对IT设备的全方位管控,大幅提升设备管理和故障处置效率。
图2 设备带外管理平台门户
平台具备如下特点:
1、全面性:支持对不同类型、品牌、型号的IT设备进行集中统一纳管,包括设备状态、部件信息、物理位置等数据;
2、准确性:通过不同维度、类别、颗粒度对数据进行归类、整理、关联、分析等处理,确保数据的准确性和唯一性;
3、实时性:对设备配置和性能数据进行自动采集,实时监控设备运行状态及变动;
4、共享性:标准化API接口,对接行内外关联系统,提供唯一设备数据源,实现数据互联互通,助力资源精细管理。
1.硬件集中监控管理
平台通过IPMI、Redfish、SNMP、SMI-S等带外管理通用协议,兼容适配主流服务器、存储、交换机等设备,采用无代理部署方式,对IT设备进行跨品牌、跨类型的集中纳管,提供统一监控、远程管理等功能,并支持设备配置自动采集,形成设备台账,提升IT设备管理效率。
图3 设备带外管理逻辑架构图
(1)统一监控:监控范围包括但不限于指示灯、CPU、内存、主板、磁盘、板卡、电源、风扇等部件状态和性能数据,对各类型资源的告警,通过统一集中告警过滤、压缩处理,第一时间发送至相关责任人,实时、主动、高效地监控设备的运行状态,当设备出现异常时能实时告警,提升设备集中管理水平。
(2)远程管理:通过连接设备带外管理端口,实现对设备进行远程控制,包括快速连接管理控制台、iKVM、开/关机、重启、BMC配置、设备日志收集等,同时支持多用户访问,对已纳管的设备分权管理,管控功能支持黑白名单限制,实现远程集中管控、故障根因分析、故障设备快速准确定位等,加快设备维护效率。
(3)配置采集:支持通过IP列表、IP段的方式自动发现和纳管主流品牌和类型的设备,自动采集纳管设备的CPU、内存、磁盘等配置信息,格式化处理后形成设备配置管理台账,支持部件、监控IP、序列号等信息动态更新,支持多维度模糊搜索与精准搜索功能,可实现快速统计与展示,为下游系统提供准确的设备数据源。
(4)设备台账:配置数据形成设备管理台账,为下游系统数据消费。支持自定义报表展示,包括统计周期、报表数据项、统计方式、过滤条件等,可在线预览和多文件格式导出。同时,平台支持提供多维度容量统计、存量统计、设备分配与使用、成本投入等视图展示与分析。
图4 服务器设备带外管理示例
2.设备资产自动化巡检
前期设备巡检主要依靠人工机房巡检或逐台登录控制台巡检,工作效率极低,响应处理时效较滞后,普遍存在以下问题:
(1)设备基数大,机房分布广泛,人工巡检耗时长,且易出现漏巡情况;
(2)设备监控不到位,设备出现故障时,无法及时发现和处理;
(3)传统巡检方式落后,缺乏科学的设备管理体系,支撑设备集中统一管理;
图5 设备自动化巡检配置示例
平台提供的设备巡检工作台,可以自定义巡检内容和巡检范围,定时对设备进行批量巡检,获取设备健康状态、部件状态、告警事件等,巡检后自动生成巡检报告。自动化巡检功能可及时反馈巡检情况,有效规避人工机房巡检风险,缩短故障发现周期,提高巡检效率和质量,为设备和信息系统的稳定运行提供保障。
3.裸金属自动化部署
随着数据中心业务不断发展,对于服务器算力需求不断增加,批量操作系统安装交付逐渐形成常态,而传统的服务器OS部署方式,主要采用的是通过光盘、U盘、ISO镜像逐台手工安装,或通过PXE网络安装方式,装机效率低且缺乏规范性,可能存在问题如下:
(1)单台服务器操作系统安装耗时费力,无法快速交付;
(2)配置或输入标准不一,易出现错/漏部署问题;
(3)易对其它设备误操作,无法确保部署的安全性;
(4)PXE安装启动DHCP服务,可能产生一定网络隐患;
图片
平台利用带外技术协议针对不同品类的裸金属服务器,实现RedHat、SUSE、Kylin、Ubuntu、Windows、ESXI等操作系统的自动化批量推送部署,同时支持定制用户基线模板、配置服务器BIOS、RAID、固件升级等功能。同时平台进行精细化权限管控,针对不同角色、不同用户设置可访问设备范围和操作权限,安装过程中具备黑/白名单限制、设备序列号自动校准、开/关机状态检验等安全保障机制,防止误部署。带外技术与管理手段相结合,确保批量安装流程化、规范化、安全化,实现裸金属资源快速交付,大幅提升运维效率。
总结与展望
G行通过设备带外集中管控平台对不同品牌、不同类型设备实现统一监控与管理,用户可通过平台全面监管设备运行状况和资产流转状态,实现设备资产的自动化、智能化、数字化管理,大幅降低了人工成本和运营成本,提升了IT运维服务质量和工作效率。
随着G行数字化发展体系的深化,平台将从配置管理、资源统筹、数据治理、流程推进等方面持续优化,坚持以数字化、精细化、自动化为目标,以数据准确、对象清晰、流程必用、效能提升为原则,建设设备全生命周期管理能力,助力IT资源降本增效,赋能G行数字化转型和高质量发展。
作者:赵爱蛟
图片
多年从事系统及服务器运维管理工作,专注于设备自动化管理工具建设,合理统筹资源,促进设备良性周转,优化设备管理手段,提升IT运维管理效率。