本文转载自微信公众号「活在信息时代」,作者活在信息时代。转载本文请联系活在信息时代公众号。
很多数据库开发人员都听说过笛卡尔积的概念,也可能偶尔碰上过因为SQL语句或者数据表数据问题而产生的笛卡尔积问题。但是很多人对于笛卡尔积产生的原因和如何避免还是有些一知半解。所以我们今天就简单明了地给大家介绍一下什么情况下会产生笛卡尔积问题,以及如何避免。
一、什么是笛卡尔积
笛卡尔积是指在数学中,两个集合X和Y的笛卡尓积(Cartesian product),又称直积,表示为X × Y,第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。
假设集合A={a, b}有两个元素,集合B={0, 1, 2}有三个元素,则两个集合的笛卡尔积为{(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}有2*3为6个元素。
在SQL查询语句中,出现笛卡尔积的情况都是出现在关联查询上,具体包括下面两种。我们以下面两张表为例,给大家介绍一下。
第一张表是雇员表:有20条数据,如下图:
第二张表为工资表:也有二十条数据,如下图:
二、数据表关联查询时,如果连接没有ON条件,会出现全部笛卡尔积
对于以上的两张表,如果我们查询
结果为:
可以看出,一共出现了20*20=400条数据。即出现了全部笛卡尔积。
三、数据表关联查询时,如果ON条件字段是非唯一字段,会出现部分笛卡尔积
以上面的数据为例,如果我们以ejob字段进行连接的话,语句如下:
结果为:
可以看出,由于ejob不是唯一字段,最终出现了36条结果,也就是出现了部分笛卡尔积。
四、如何才能不出现笛卡尔积的查询结果
为避免出现查询结果为笛卡尔积的冗余数据情况,应该在连接查询时,使用唯一字段进行连接。