以下的文章主要向大家讲述的是SQL Server索引直方图(The Statistics Histogram),在直方图中,其至多可存储200个样本值。每个样本被称为一个step。保存在每个step中样本值是值的范围的端点。每个step保存了3个值,分别描述为:
EQ_ROWS——与样本值相同的行数。换句话就是该step中重复值的个数。
RANG_ROWS——表示除了当前值外,介于当前step和前一个step之间其他值的行数。
Rang Density——表示在该范围内有多少个不同的值。范围密度信息实际上有两个单独的列组成,分别为:DISTINCT_RANGE_ROWS 和AVG_RANG_ROWS。
DISTINCT_RANGE_ROWS表示除了当前值外,当前step与前一个step之间具有多少个不同值的个数。
AVG_RANGE_ROWS在该step范围内,每个不同值的平均行数。
在listing34.1的输出中,SQL Server索引直方图中第一列的所有不同键值的值作为样本值存储在直方图中,所以,直方图中的样本值之间没有值(RANG_ROWS),其后所有的范围值为0。你可能注意到在last name 为Ringer的索引键值上有一个重复值(EQ_ROWS = 2)。为了更好比较,Listing34.2显示了bigpubs2000数据库中的sales表的DBCC SHOW_STATISTICS信息片段。
- Listing 34.2 DBCC SHOW_STATISTICS Output for the titleidind Index on the sales Table in the bigpubs2000 Database
- Statistics for INDEX 'titleidind'.
- Updated Rows Rows Sampled Steps Density Average key length
- Aug 21 2001 11:18PM 168725 168725 200 1.8955356E-3 26.405577
- (1 row(s) affected)
- All density Average Length Columns
- 1.8621974E-3 6.0 title_id
- 5.997505E-6 10.0 title_id, stor_id
- 5.9268041E-6 26.405577 title_id, stor_id, ord_num
- (3 row(s) affected)
- RANGE_HI_KEY RANGE_ROWS EQ_ROWS DISTINCT_RANGE_ROWS AVG_RANGE_ROWS
- BI0194 0.0 314.0 0 0.0
- BI2184 613.0 343.0 2 306.5
- BI2574 270.0 277.0 1 270.0
- BI3224 618.0 286.0 2 309.0
- BI3976 311.0 293.0 1 311.0
- BI6450 673.0 300.0 2 336.5
- BI9506 947.0 292.0 3 315.66666
- BU1111 296.0 299.0 1 296.0
- BU7832 349.0 334.0 1 349.0
- CH0249 1011.0 311.0 3 337.0
- CH0639 984.0 307.0 3 328.0
- ...
- TC4203 0.0 321.0 0 0.0
- TC7777 0.0 297.0 0 0.0
- (200 row(s) affected)
从这个例子你可以看出,每个范围内有更多的值(RANG_ROWS),并且每个step中包含了更多的重复值(EQ_ROWS)。另外,直方图中的所有200行都被使用了,表中的168,725行记录分布在这些200行中。所有的168,725行都被用来生成统计信息(Rows Sampled)。
只有当一个常量表达式与索引列进行比较时,并且常量表达式的值在查询编译时是已知时,SARG的计算才能使用直方图的step值。直方图中的step可以为SARG使用的的例子包括:
- Where col_a = getddate()
- Where cust_id = 12345
- Where monthly_sales < 10000 /12
- Where l_name like "Smith" + "%"
有些常量表达式的直到查询运行时才能计算出来。这些查询参数中包含了局部变量或者子查询:
- Where price = @avg_price
- Where total_sales > (select sum(qty) from sales)
- Where titles.pub_id = publishers_id
对于这些类型的表达式,你需要其他方法来估计匹配的行数。另外,因为直方图steps只记录了索引中第一列的值,当需要评估组合索引的多列的SARG匹配的行数时,SQL Server必须使用不同方法来决定,例如下面:
- Select * from sales
- Where title_id = 'BI3976'
- And stor_id = 'p648'
当直方图没有被使用或者不能使用时,SQL Server使用索引密度值来估计匹配的行数,以上的相关内容就是对SQL Server索引直方图(The Statistics Histogram)的介绍,望你能有所收获。
【编辑推荐】
- 创建SQL Server数据库更是实在
- SQL Server创建表所要用到的代码
- SQL Server创建约束的代码运用
- 实现SQL Server创建事务要用到的代码
- 优化SQL Server数据库的经验大盘点