此文章主要讲述的是DB2 V9.7 本地分区索引的介绍,DB2 V9.7 数据库其提出了范围分区表的分区索引的实际操作的概念,这主要是为客户在原有的全局索引基础上增加了一个新的功能选择。
分区索引采用 B 树结构,将一棵全局大树分解为诺干个小树,树的层次将会显著减少,这将会提高数据的插入、更新、删除和扫描的性能。分区索引在分区表的 Roll in/Roll out 时不需要重新构建整个索引,加速了数据的滚入和滚出。
简介
在 DB2 V9.7 以前,范围分区表只支持全局索引(或者称为非分区索引),这样即使分区表的数据是分布在多个表空间上的,分区表的所有索引只能存储在同一个表空间中。这一特性限制了索引扫描只能在一个表空间上对该索引的页面进行读取,导致读取页面过多并约束了扫描的并行性。
DB2 V9.7 使用分区索引的索引组织方案,即索引数据根据表的分区方案分布到多个索引分区中,每个索引分区都只引用对应数据分区中的表行。从 DB2 V9.7 开始,创建索引时默认创建分区索引,除非出现以下情况:
对 CREATE INDEX 语句指定了 UNIQUE,并且索引键未包括所有表分区键列。
创建基于空间数据的索引。
创建基于 XML 数据的索引
分区索引的创建
一个分区表可以同时存在分区索引和非分区索引。如果创建分区索引,那个每个索引分区将都包含单个数据分区的索引条目,索引叶子节点中的 RID 也将只指向单个数据分区。
在我们使用 Alter table 语句的 Attach Partition 子句将数据 Roll in 或者 Roll Out 分区表时,分区索引将特别有用。如果使用非分区索引,那么必须先发出 Set Integrity 语句,新添加的分区中的数据才能进入联机状态。这个过程可能非常消耗时间,并可能消耗大量日志空间。当使用分区索引时这些开销将会被消除。
分区索引的每个分区均采用 B 树结构存储,由于分区后一个大型 B 树被划分为若干小型 B 树,树的层数将会减少,这会提高数据的插入、更新、删除以及扫描的性能。同时我们执行查询时,DB2 将会采用分区消除优化方法提高扫描性能和并行性。分区消除技术帮助优化器先过滤了不需要的索引分区,只需要扫描相应的分区就能完成查询,这比扫描非分区的索引更为高效。
清单 1. 创建示例分区表与索引
- CREATE TABLE t1 ( l_orderkey INTEGER, l_partkey INTEGER, l_suppkey INTEGER,
- l_shipdate date, padding1 char(30) )
- PARTITION BY RANGE(l_shipdate)
- (
- partition quarter01 STARTING '2008-01-01' ENDING '2008-03-31'in DMS_D1,
- partition quarter02 STARTING '2008-04-01' ENDING '2008-06-30'in DMS_D2,
- partition quarter03 STARTING '2008-07-01' ENDING '2008-09-30' in DMS_D3,
- partition quarter04 STARTING '2008-10-01' ENDING '2008-12-31' in DMS_D4
- );
- Create index idx_t1_l_orderkey on t1(l_orderkey) NOT partitioned ;
- Create index idx_t1_l_partkey on t1(l_partkey) partitioned;
上面代码中,我们创建了一个拥有四个分区的范围分区表,同时创建了两个索引。索引 index idx_t1_l_orderkey 是非分区索引,idx_t1_l_partkey 是分区索引。
我们下面查看一下上面代码执行后数据字典关于表 T1 以及它的索引的描述。系统视图 syscat.datapartitions 中包含了分区表的分区信息以及相关统计信息,系统视图 syscat.indexpartitions 中则包含了分区索引的分区信息和相关统计信息。
清单 2. 分区表的数据分区信息
- db2 "select substr(TABNAME ,1,10) t_name,substr(DATAPARTITIONNAME ,1,10) part_name,
- DATAPARTITIONID ,substr(LOWVALUE,1,12) low_value,substr(HIGHVALUE,1,12) high_value
- from syscat.datapartitions where tabname='T1'"
- T_NAME PART_NAME DATAPARTITIONID TBSPACEID LOW_VALUE HIGH_VALUE ----------
- T1 QUARTER01 0 8 '2008-01-01' '2008-03-31'
- T1 QUARTER02 1 9 '2008-04-01' '2008-06-30'
- T1 QUARTER03 2 10 '2008-07-01' '2008-09-30'
- T1 QUARTER04 3 11 '2008-10-01' '2008-12-31'
清单 2 中代码执行查询,从系统视图 syscat.datapartitions 中获取关于数据分区的信息。查询结果显示,表 T1 具有四个分区,名称与我们创建时相同,ID 依次为 0、1、2、3,数据分布在表空间 DMS_D1(ID 为 8)、DMS_D2(ID 为 9)、DMS_D2(ID 为 10)、DMS_D3(ID 为 11)上。本例中的表空间信息如下:
清单 3. 表空间信息
- db2 "select substr(TBSPACE,1,18) tablespace_name,TBSPACEID ,TBSPACETYPE
- from syscat.tablespaces"
- TABLESPACE_NAME TBSPACEID TBSPACETYPE
- SYSCATSPACE 0 D TEMPSPACE1 1 S USERSPACE1 2 D
- IBMDB2SAMPLEREL 3 D IBMDB2SAMPLEXML 4 D SYSTOOLSPACE 5 D
- SYSTOOLSTMPSPACE 6 S TBS_TEST 7 D
- DMS_D1 8 D DMS_D2 9 D DMS_D3 10 D DMS_D4 11 D DMS_I1 12 D
清单 4. 索引基本信息
- db2 "select substr(tabname,1,10) tab_name, substr(INDNAME,1,18) inx_name,TBSPACEID
- from syscat.indexes where tabname='T1'"
- TAB_NAME INX_NAME TBSPACEID ---------- ------------------ -----------
- T1 IDX_T1_L_ORDERKEY
- 8
- T1 IDX_T1_L_PARTKEY 65530
我们看到非分区索引 IDX_T1_L_ORDERKEY 数据存放在表空间 DMS_D1 上(ID 为 8),这意味着在创建索引未明确指定表空间时,DB2 将使用***个数据分区所在的表空间存放非分区索引。而索引 IDX_T1_L_PARTKEY 所在的表空间 ID 为 65530,我们通过表空间信息部分看到我们的数据库中没有 ID 为 65530 表空间。
由于分区索引的存储特性是和数据分区关联的,一个索引将分布在多个表空间中,因此 DB2 用了 65530 特殊值表示索引的表空间,并不表示这个 ID 对应的表空间存在以上的相关内容就是对DB2 V9.7 本地分区索引的介绍,望你能有所收获。
完整内容的学习,请访问:
http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0907luohq/
【编辑推荐】