对运维数据的看法不只有一种,正确的看法抢到了关键六分钟

数据库 其他数据库
D-SMART是一种十分特殊的数据库运维工具,我们定义为“运维知识自动化系统”,是通过对数据库的数字化分析,从而帮助用户预警故障,分析问题,优化数据库系统的。

数据是客观的某种解释,但是数据不是事实本身,而是对事实的某种方面的描述。我们在分析事实的时候经常会用到数据,但是我们在看数据的时候往往带有某种情绪或者观点。比如说对于经济数据的看法总是有两种声音,唱衰亦或是看好。三月份的出口数据,同比下降了7.5%,这个数据是好还是坏呢?简单地从数值上看,可能是相当不好,不过如果考虑到去年3月份强劲的出口,以及1-3月的总的数据,似乎还不错。

遇到这样的情况,我的做法是去看3月份的用电量数据,从某个口径统计的数据上看,3月份用电量增长为6.4%,不过第二产业增长确实有所下降,为3.7%,是最近半年内的最低。不过从1-3月的总数据来看,代表制造业景气状态的1-3月总的用电量增长为6.9%+,为最近几年来的最高。如果再看看2023年3月的数据,第二产业同比增长6.9%,去年三月中国的实体经济恢复很快,增长很猛。通过这些数据的完整对比,我想对当前中国实体经济的总体看法恐怕就会有所不同了。

实际上看数据的方法对于不同的行业来说都是类似的,我们做数据库运维的时候,依赖的也是各种指标和数据,因此和看用电量数据一样,如何正确使用这些数据十分关键。不能采取正确的方法来看这些数据,那么就无法实现高效的运维。

昨天和一个友商交流运维工具的时候,他对比了我们的工具与其他工具的功能差异,觉得我们在某些地方做得比较好,有些地方做得不如其他厂商。他的观点还是比较客观的,不过我觉得对于数据库运维工具,不是简单的功能对比,因为数据库运维工具好不好,很大程度上不在于功能,在某些情况下,对数据的解读能力上的差异更需要关注。

D-SMART是一种十分特殊的数据库运维工具,我们定义为“运维知识自动化系统”,是通过对数据库的数字化分析,从而帮助用户预警故障,分析问题,优化数据库系统的。并不包含数据库日常运维中的部署,启停,处置等功能。这个工具可以与具有这样功能的工具相结合,成为企业中运维平台的基础能力组件。

前两天有个客户和聊天说,我们的工具帮助他们避免了一次严重的运营事故。问题很简单,是归档空间用满了。他们的系统平时归档量不是很大,归档空间给得很大,正常情况下是不会出现归档空间满的情况。因此他们也给了归档空间告警设置了一个较高的阈值,96%。一般情况下,从96%的归档空间到空间爆满影响业务,至少也有1-2天的缓冲时间,足够让他们去处置了。

前几天遇到一个特殊情况,正好是他们大批量从其他系统导入数据的日子,同时也正好遇到开发商在做一些数据升级,重建索引等维护操作。REDO产生量就比平时高了数十倍。长时间系统没出过大问题也让他们对此有些麻痹。

图片图片

出问题的时候,首先告警的故障模型是一个平时不太常见的场景,归档使用率超过95%,并且归档可用天数小于0.03天(不足1小时 )。这个故障模型的依据是动态计算的归档空间可用天数这个指标,这个指标随着当前日志量会动态波动,不是十分精准,但是应对类似场景十分有效。

六分钟后,归档使用率过高的告警也出现了,随后归档目录满等告警也同时出现。他们收到第一个告警后马上意识到了问题的 严重性,立即开始处置,当他们连到系统上进行处理的时候,实际上系统已经出现了卡死,业务报错也已经开始出现了。不过幸运的是在业务部门刚刚发现错误的同时,故障已经被处置完成了。本次故障没有造成太大的损失。数据库团队也因为极其快速地处置了故障而受到了领导的表扬。

这救命的6分钟给了数据库团队一个提前量,让他们避免了一次灾难。从这个案例中,我们可以看到实际应用场景的多样性,以及系统故障可能的多样性。面对复杂的多样性,数据分析与数据使用的能力成为成败的关键。也再一次证明了,数据是运维监控系统的核心,对数据的运用能力的不断提升是运维监控系统建设的关键。

责任编辑:武晓燕 来源: 白鳝的洞穴
相关推荐

2022-07-04 08:01:16

OSPFRIPBGP

2022-05-30 07:51:13

数据库MySQLQPS

2009-11-10 17:27:01

Oracle全表扫描

2009-10-27 17:22:27

2013-09-30 10:13:08

IT女程序员

2012-08-13 14:13:46

2012-11-09 10:46:24

Canonical

2011-12-11 19:06:57

Windows Pho

2015-11-20 10:37:36

KeystoneOpenStackDocker

2009-11-20 09:14:15

Chrome OS系统评价

2015-09-21 10:16:37

阿里云心电数据大数据

2010-03-22 13:35:49

云计算

2009-06-23 14:07:14

JavaFX

2011-11-03 09:46:39

社交网络

2022-05-27 17:38:22

CloudOps云运维

2009-02-26 10:57:52

CCNA网络工程师认证考试

2011-03-21 09:56:06

2009-09-24 08:45:26

微软竞争对手Chrome

2014-06-04 10:48:38

Swift苹果iOS

2018-06-27 11:02:39

大数据麦肯锡分析
点赞
收藏

51CTO技术栈公众号