如何估算重复数据删除的比率

数据库
重复数据删除是一种很有用的数据库管理工具,重复数据删除技术就是一种减少或者删除冗余文件、字节或者数据块的技术。本文中将为大家带来重复数据删除的比率的估算方法。

导读:重复数据删除的出现使很多的重复冗余数据无处藏身,重复数据删除在平时的工作中将会发挥很大的作用,重复数据删除技术相信是数据库管理员最喜欢的啦。下文中将主要为大家介绍关于如何估算重复数据删除的比率。

如何对数据进行识别和去重是现在主流重复数据删除软件的主要区别。

在硬盘上进行数据备份是大势所趋。以后将会有越来越多的备份工作从磁带转移到磁盘上,重复数据删除的重要性由此也变的更为明显。由于每个厂家的产品各不相同,以及对这种技术的不了解,导致许多的存储管理员在选择重复数据删除产品时感到茫然。
在备份过程中,重复数据删除产品主要运行在两个地方:备份软件和硬盘库中。主流的备份软件有以下几款:Asigra公司的Tele- vaulting,EMC公司的Avamar,赛门铁克公司的Veritas Netbackup PureDisk。
这些备份软件可以在主机级别对数据进行重复数据删除,然后将处理过的数据传递到备份目标盘或者灾难恢复地点。
主流的磁盘库厂家包括:Data Domain、Diligent Technologies、Quantum和Sepaton等。重复数据删除软件可以对这些目标端设备进行数据的重复删除,而且不会影响正常的数据备份工作。
下面提到的算法基本适用于任何厂家的重复数据删除产品。重复数据删除对性能有何影响及重复删除后的数据如何管理是两个最受关注的问题。
有时使用一种方法可能无法满足备份的需求,这时存储管理员不得不在磁盘库和备份软件中同时运行重复数据删除软件。
部署重复数据删除时可能会遇到一些潜在的问题,例如,未进行重复删除的数据能否保存到磁带上,重复数据删除技术是否跟备份软件兼容,必要时能否将重复数据删除功能关闭等。用户一定要在权衡利弊之后再决定是否进行实施。
如何估算重复数据删除的比率
多余的数据:
服务器上多余的数据越多,重复删除的比率就越高。如果用户使用的是同一种操作系统,例如Windows,并且系统上的文件或者数据库数据大部分相同的话,重复数据删除的效果会很理想。如果用户使用不同的操作系统,并且上面的数据文件都不相同,那重复数据删除的比率会比较低。
数据变化的频率:
重复数据删除的比率跟数据变化的频率有关。数据变化的频率越高,重复数据删除的比率越低。平时所说的20:1的重复数据删除比率是基于数据变化率为5%基础之上的。
数据预压缩:
数据压缩是数据删除算法中的一个关键因素。数据压缩的比率一般为2:1,厂家宣传的重复删除的数据通常已包含压缩功能删除的这部分数据。如果重复数据删除比率是15:1,通过压缩可以达到30:1. 不过如果已经压缩过的数据,例如jpeg,mpeg,zip文件,再次压缩基本不会有什么效果。
数据保存周期:
数据保存的周期可以影响数据重复删除的比率。如果计划让重复数据删除的比率达到10倍或者30倍,需要将数据保存周期设置为20周。如果没有足够的空间存储数据,重复数据删除的比率就会降低。
全备份的次数:
全备份的次数越多,重复数据删除的比率就越高。

关于如何估算重复数据删除的比率知识的介绍就为大家说这么多,总而言之,重复数据删除技术的出现就是技术的进步,重复数据删除在技术上是比较先进的,希望上文中涉及到的内容对大家能够有所帮助。

【编辑推荐】

  1. 浅析重复数据删除技术
  2. 重复数据删除技术对备份有着深刻影响
  3. SQL Server重复数据删除的2个操作方案
  4.  
  5.  
责任编辑:迎迎 来源: 比特网
相关推荐

2010-07-07 16:53:54

SQL Server重

2011-04-13 13:05:14

重复数据删除

2009-01-11 17:32:03

Oracle数据库重复数据

2021-11-30 10:00:01

SQL数据重复

2010-11-03 13:50:49

DB2删除重复数据

2015-10-23 16:40:21

DB2删除数据

2023-02-26 23:31:01

SQL数据库

2017-05-27 17:00:43

重复数据删除存储云端

2011-04-13 10:36:24

重复数据删除

2010-07-26 09:55:55

SQL Server重

2010-04-28 10:13:37

Oracle删除重复数

2010-07-21 11:38:59

SQL Server重

2010-07-08 13:06:05

SQL Server删

2010-07-26 14:58:26

SQL Server删

2011-03-10 15:06:02

重复数据删除技术

2009-02-27 10:18:41

重复数据删除In-linePost-Proces

2023-01-03 07:44:53

MySQL查询重复

2011-03-14 15:47:33

Oracle数据库

2010-07-01 12:29:27

SQL Server重

2010-07-23 16:21:37

SQL Server重
点赞
收藏

51CTO技术栈公众号