行业IT数字化转型方兴未艾,区块链、虚拟化、容器、IoT等新技术的应用使得业务模式产生了巨大的变化,IT运维也随之迎来了更高的要求:运维规模更庞大、运维对象更丰富、运维要求也越来越高,以上种种都给传统运维方式带来巨大挑战:
- 被动低效的运维难以保证业务连续性:传统运维多依赖专家的经验规则进行故障定位、根因分析和配置下发等管理任务的制定和执行,运维人员往往扮演着事后“救火”的角色;
- 运维方式分散:运维的自动化程度较低,缺乏统一的运维监控体系和技术工具,效率低下;
- 海量的运维数据的价值无法充分挖掘:传统运维系统收集了大量的运维数据,但是却缺乏有效的手段加以分析和利用。
针对传统运维中存在的痛点,覆盖新技术、新场景和新应用的运维创新是面向未来的必然选择,而由大数据、人工智能、机器学习技术交叉而形成的智能运维(AIOps)行业逐渐成为一片新蓝海,吸引各地政府、企业开展广泛布局并积极探索行业应用,也推动了自动化运维工具的进一步发展。
云上贵州大数据产业发展有限公司(以下简称:云上贵州)成立于2014年,致力于推动大数据电子信息产业发展。通过全方位的大数据基础设施、数据处理与存储、数据挖掘与交易、信息系统集成服务和专业的云平台及云应用等服务,为政府和企事业单位提供云计算、云储存、数据库、云安全及数据共享开放等服务,构建大数据产融生态体系。
云上贵州在智能运维领域深耕多年,其自主研发的智能运维平台,通过本地或远程采控的方式实现对终端及云平台等新型设备资产的管理监控、运维团队的统筹管理、运维数据的采集沉淀与挖掘,为用户提供全流程智能化的IT运维服务,助力企业运维进入智能化时代。
伴随着数据的爆炸性增长及技术快速的迭代升级,运维团队需要计算效率更快、数据处理效率及工程效率更高的自动化平台,从而更好地支撑端到端的运维保障服务,因此对运维平台的算力底座提出了更高挑战:
1.高吞吐:运维服务热线、设备运行状态数据采集等大批量数据操作要求满足大并行计算且快速处理的要求。如某政务场景中涉及约10万台新型终端,除运维团队支撑外,预计每天有几百上千次用户咨询或服务请求。
2.低延时:为提供工程师远程运维能力和用户服务体验,平台对数据和网络延时有很高要求,客服机器人回答问题时间从过去的3-4s缩短到1s。
3.高可靠:云上贵州智能运维平台是构建统一运维服务体系的核心支撑,服务区域乃至贵州省运维工作的统筹管理,因此对可靠性要求极高。
4.低功耗:运维服务体系将会是一个长期、高频、重度使用的业务体系,大规模的计算量将带来了能耗提升,为响应国家环保号召,需要低功耗硬件实现节能减排。
鲲鹏天然的多核多并发的扩展运行能力,以及高性能、高算力、低功耗等优势,能够很好的满足云上贵州智能运维平台海量数据处理、低时延、高可靠及绿色计算等要求,同时还提供完善的鲲鹏DevKit开发套件以及专业服务,能够帮助用户快速完成应用的迁移、开发、编译和调优;此外,结合鲲鹏BoostKit还可在HTTPS访问以及应用安全性上实现进一步提升,助力智能运维平台的高效创新。
基于上述考虑,云上贵州选择鲲鹏作为云上贵州智能运维平台的数字底座,通过软硬件相结合的方式,实现面向用户的智能化及全流程运维服务,提供涵盖云、网、端全面的运维保障服务。
【云上贵州智能运维平台全栈图】
鲲鹏DevKit 1人天/应用快速迁移云上贵州智能运维平台
项目初期,由于生态架构差异,开发人员需要将云上贵州智能运维平台快速迁移到鲲鹏平台并进行兼容适配,由于业务系统体量巨大、代码复杂,需要对3个业务子系统,10个功能模块进行迁移,平台依赖包含约600个,通过人工无法快速精准进行兼容性评估,编译效率太低。
鲲鹏开发套件DevKit提供鲲鹏代码迁移工具,能够对工程文件进行扫描分析,自动识别待迁移代码并给出代码修改建议,在工具的帮助下共识别出可兼容替换jar包29个,同时还快速获取了兼容依赖库的下载地址,平均1人天/应用就完成了业务系统的迁移,极大缩短应用迁移的时长和提高迁移的有效性。
【鲲鹏DevKit代码迁移工具扫描获取迁移报告-以客服模块为例】
基于鲲鹏DevKit高效开发ITSM管理模块,性能提升75%
针对大体量客户的运维服务需求,迁移完成之后,云上贵州计划在鲲鹏服务器上开发ITSM(IT Service Manager)管理模块以实现更高的运行效率。ITSM系统是云上贵州智能运维平台核心业务层的重要模块,为工程师提供工单管理和流转的支持服务,确保技术支持服务能够有序可控且高质量的执行。
在开发过程中,为进一步提升业务与鲲鹏平台的兼容性和稳定性,将之前的OpenJDK替换为鲲鹏DevKit提供的毕NJDK,毕NJDK在鲲鹏架构中为云上贵州智能运维平台提供了更好的兼容性和稳定性,编译性能较之前使用的OpenJDK8有了大幅提升。
此外,针对系统出现的性能瓶颈,技术人员使用鲲鹏DevKit性能分析工具对应用进行性能调优和系统诊断,从而帮助技术人员更加快速找到热点问题和定位性能瓶颈:
- 针对客服模块工单处理场景进行性能优化时,通过鲲鹏DevKit系统性能分析功能发现Docker和Nginx等服务进程上存在热点的问题,在工具的帮助下调整了Docker-Compose中物理资源分配策略,调整了Nginx中worker_processes、proxy、multi_accept等参数,从而优化了数据的并发特性;
- 同时,鲲鹏DevKit调优助手可以快速分析出系统资源消耗链条,引导技术人员分析性能瓶颈,在工具的引导下发现php-fmp(PHP FastCGI 进程管理器)存在性能瓶颈,结合工具的修改建议,对pm、pm.start_servers、pm.max_children等参数项进行优化,大大减少了系统中断频率和服务响应时间,使得工单处理等业务响应时间由375ms缩短到了220ms,提升了设备处理能力。
【单次业务响应时间和200并发业务场景吞吐量性能调优前后对比】
通过鲲鹏DevKit进行编译优化及性能调优之后,云上贵州智能运维平台的整体性能都得到了提升:在操作工单的业务场景中,8w数据规模下单次业务响应时间由375ms缩短到220ms,性能提升41%; 200并发同时处理工单的场景中,吞吐量由每秒114.7次提升到了202.7次,业务性能提升可达75%。此外,一键帮助等业务的综合性能也得到较为明显的提升。
在进行云上贵州智能运维平台的鲲鹏原生开发过程中,通过鲲鹏DevKit提升了应用开发和迁移效率,有效提升了加解密算法的处理速度,使得整个运维保障服务进一步实现降本增效的目标,让政府及企业的运维统筹工作更加便捷和高效。
目前云上贵州智能运维平台已正式上线,面向贵州全省提供服务保障工作,已经成功支撑贵州省多项重要民生服务。该方案也在鲲鹏应用创新大赛2022贵州赛区数字政府赛道获得了金奖荣誉。这不仅验证了该平台与鲲鹏结合后高性能、高可靠的优势,也标志着云上贵州产品在鲲鹏计算应用创新、产业融合、市场应用方面达到领先水平。
作为鲲鹏计算产业生态重要伙伴,云上贵州已与鲲鹏生态创新中心建立长期合作关系。未来,鲲鹏将持续通过最新的技术使能伙伴联合创新,打造更具竞争力的行业解决方案,支撑数字贵州建设,促进千行百业数字化转型。
鲲鹏原生开发是指使用鲲鹏DevKit的原生开发能力,如鲲鹏开发框架(含场景化SDK)、编译调试工具、云测服务、调优&诊断工具等,在鲲鹏平台上开发新软件/新功能,充分发挥鲲鹏架构优势,从而获得开发效率/运行性能提升。鲲鹏DevKit将持续增强开发体验、优化工具能力,提升鲲鹏开发效率,助力千行百业数字化转型。