数据是客观的某种解释,但是数据不是事实本身,而是对事实的某种方面的描述。我们在分析事实的时候经常会用到数据,但是我们在看数据的时候往往带有某种情绪或者观点。比如说对于经济数据的看法总是有两种声音,唱衰亦或是看好。三月份的出口数据,同比下降了7.5%,这个数据是好还是坏呢?简单地从数值上看,可能是相当不好,不过如果考虑到去年3月份强劲的出口,以及1-3月的总的数据,似乎还不错。
遇到这样的情况,我的做法是去看3月份的用电量数据,从某个口径统计的数据上看,3月份用电量增长为6.4%,不过第二产业增长确实有所下降,为3.7%,是最近半年内的最低。不过从1-3月的总数据来看,代表制造业景气状态的1-3月总的用电量增长为6.9%+,为最近几年来的最高。如果再看看2023年3月的数据,第二产业同比增长6.9%,去年三月中国的实体经济恢复很快,增长很猛。通过这些数据的完整对比,我想对当前中国实体经济的总体看法恐怕就会有所不同了。
实际上看数据的方法对于不同的行业来说都是类似的,我们做数据库运维的时候,依赖的也是各种指标和数据,因此和看用电量数据一样,如何正确使用这些数据十分关键。不能采取正确的方法来看这些数据,那么就无法实现高效的运维。
昨天和一个友商交流运维工具的时候,他对比了我们的工具与其他工具的功能差异,觉得我们在某些地方做得比较好,有些地方做得不如其他厂商。他的观点还是比较客观的,不过我觉得对于数据库运维工具,不是简单的功能对比,因为数据库运维工具好不好,很大程度上不在于功能,在某些情况下,对数据的解读能力上的差异更需要关注。
D-SMART是一种十分特殊的数据库运维工具,我们定义为“运维知识自动化系统”,是通过对数据库的数字化分析,从而帮助用户预警故障,分析问题,优化数据库系统的。并不包含数据库日常运维中的部署,启停,处置等功能。这个工具可以与具有这样功能的工具相结合,成为企业中运维平台的基础能力组件。
前两天有个客户和聊天说,我们的工具帮助他们避免了一次严重的运营事故。问题很简单,是归档空间用满了。他们的系统平时归档量不是很大,归档空间给得很大,正常情况下是不会出现归档空间满的情况。因此他们也给了归档空间告警设置了一个较高的阈值,96%。一般情况下,从96%的归档空间到空间爆满影响业务,至少也有1-2天的缓冲时间,足够让他们去处置了。
前几天遇到一个特殊情况,正好是他们大批量从其他系统导入数据的日子,同时也正好遇到开发商在做一些数据升级,重建索引等维护操作。REDO产生量就比平时高了数十倍。长时间系统没出过大问题也让他们对此有些麻痹。
图片
出问题的时候,首先告警的故障模型是一个平时不太常见的场景,归档使用率超过95%,并且归档可用天数小于0.03天(不足1小时 )。这个故障模型的依据是动态计算的归档空间可用天数这个指标,这个指标随着当前日志量会动态波动,不是十分精准,但是应对类似场景十分有效。
六分钟后,归档使用率过高的告警也出现了,随后归档目录满等告警也同时出现。他们收到第一个告警后马上意识到了问题的 严重性,立即开始处置,当他们连到系统上进行处理的时候,实际上系统已经出现了卡死,业务报错也已经开始出现了。不过幸运的是在业务部门刚刚发现错误的同时,故障已经被处置完成了。本次故障没有造成太大的损失。数据库团队也因为极其快速地处置了故障而受到了领导的表扬。
这救命的6分钟给了数据库团队一个提前量,让他们避免了一次灾难。从这个案例中,我们可以看到实际应用场景的多样性,以及系统故障可能的多样性。面对复杂的多样性,数据分析与数据使用的能力成为成败的关键。也再一次证明了,数据是运维监控系统的核心,对数据的运用能力的不断提升是运维监控系统建设的关键。