10亿数据如何快速找到某个数 | 经典算法BitMap详解

大数据 算法
有一个无序有界int数组{1,2,5,7},初步估计占用内存44=16字节,因为只有4个数,很容易,可以很快找到需要的数。但是假如有10亿个这样的数呢,10亿个不重复并且没有排过序的无符号的int整数,给出一个整数,找出给定的某个数,你该如何操作?

前言

  • BitMap从字面的意思,很多人认为是位图,其实准确的来说,翻译成基于位的映射,怎么理解呢?

问题引入

有一个无序有界int数组{1,2,5,7},初步估计占用内存44=16字节,因为只有4个数,很容易,可以很快找到需要的数。但是假如有10亿个这样的数呢,10亿个不重复并且没有排过序的无符号的int整数,给出一个整数,找出给定的某个数,你该如何操作?

需求分析:Int类型在Java中的存储占用4个Byte,32Bit。10亿4/(102410241024)=3.72G左右。如果这样的一个大的数据做查找和排序,那估计内存也崩溃了,有人说,这些数据可以不用一次性加载,那就是要存盘了,存盘必然消耗IO。我们提倡的是高性能,这个方案直接不考虑。

[[330308]]

问题分析

如果用BitMap思想来解决的话,就好很多,那么BitMap是怎么解决的啊,如下:

一个byte是占8个bit,如果每一个bit的值就是有或者没有,也就是二进制的0或者1,如果用bit的位置代表数组值有还是没有,那么0代表该数值没有出现过,1代表该数组值出现过。不也能描述数据了吗?具体如下图: 

10亿数据如何快速找到某个数 | 经典算法BitMap详解

是不是很神奇,那么现在假如10亿的数据所需的空间就是3.72G/32了吧,一个占用32bit的数据现在只占用了1bit,节省了不少的空间,排序就更不用说了,一切显得那么顺利。这样的数据之间没有关联性,要是读取的,你可以用多线程的方式去读取。时间复杂度方面也是O(Max/n),其中Max为byte[]数组的大小,n为线程大小。

三、应用与代码

如果BitMap仅仅是这个特点,我觉得还不是它的优雅的地方,接下来继续欣赏它的魅力所在。下面的计算思想其实就是针对bit的逻辑运算得到,类似这种逻辑运算的应用场景可以用于权限计算之中。

再看代码之前,我们先搞清楚一个问题,一个数怎么快速定位它的索引号,也就是说搞清楚byte[index]的index是多少,position是哪一位。举个例子吧,例如add(14)。14已经超出byte[0]的映射范围,在byte[1]范围之类。那么怎么快速定位它的索引呢。如果找到它的索引号,又怎么定位它的位置呢。Index(N)代表N的索引号,Position(N)代表N的所在的位置号。

  • Index(N) = N/8 = N >> 3;
  • Position(N) = N%8 = N & 0x07;

(1) add(int num)

你要向bitmap里add数据该怎么办呢,不用担心,很简单,也很神奇。上面已经分析了,add的目的是为了将所在的位置从0变成1.其他位置不变. 

10亿数据如何快速找到某个数 | 经典算法BitMap详解

实例代码:

  1. public void add(int num){ 
  2.         // num/8得到byte[]的index 
  3.         int arrayIndex = num >> 3;  
  4.          
  5.         // num%8得到在byte[index]的位置 
  6.         int position = num & 0x07;  
  7.          
  8.         //将1左移position后,那个位置自然就是1,然后和以前的数据做|,这样,那个位置就替换成1了。 
  9.         bits[arrayIndex] |= 1 << position;  
  10.     } 

(2) clear(int num)

对1进行左移,然后取反,最后与byte[index]作与操作。 

10亿数据如何快速找到某个数 | 经典算法BitMap详解

实例代码:

  1. public void clear(int num){ 
  2.         // num/8得到byte[]的index 
  3.         int arrayIndex = num >> 3;  
  4.          
  5.         // num%8得到在byte[index]的位置 
  6.         int position = num & 0x07;  
  7.          
  8.         //将1左移position后,那个位置自然就是1,然后对取反,再与当前值做&,即可清除当前的位置了. 
  9.         bits[arrayIndex] &= ~(1 << position);  
  10.  
  11.     } 

(3) contain(int num) 

10亿数据如何快速找到某个数 | 经典算法BitMap详解

实例代码:

  1. public boolean contain(int num){ 
  2.        // num/8得到byte[]的index 
  3.        int arrayIndex = num >> 3;  
  4.         
  5.        // num%8得到在byte[index]的位置 
  6.        int position = num & 0x07;  
  7.         
  8.        //将1左移position后,那个位置自然就是1,然后和以前的数据做&,判断是否为0即可 
  9.        return (bits[arrayIndex] & (1 << position)) !=0;  
  10.    } 

全部代码如下:

  1. public class BitMap { 
  2.     //保存数据的 
  3.     private byte[] bits; 
  4.      
  5.     //能够存储多少数据 
  6.     private int capacity; 
  7.      
  8.      
  9.     public BitMap(int capacity){ 
  10.         this.capacity = capacity; 
  11.          
  12.         //1bit能存储8个数据,那么capacity数据需要多少个bit呢,capacity/8+1,右移3位相当于除以8 
  13.         bits = new byte[(capacity >>3 )+1]; 
  14.     } 
  15.      
  16.     public void add(int num){ 
  17.         // num/8得到byte[]的index 
  18.         int arrayIndex = num >> 3;  
  19.          
  20.         // num%8得到在byte[index]的位置 
  21.         int position = num & 0x07;  
  22.          
  23.         //将1左移position后,那个位置自然就是1,然后和以前的数据做|,这样,那个位置就替换成1了。 
  24.         bits[arrayIndex] |= 1 << position;  
  25.     } 
  26.      
  27.     public boolean contain(int num){ 
  28.         // num/8得到byte[]的index 
  29.         int arrayIndex = num >> 3;  
  30.          
  31.         // num%8得到在byte[index]的位置 
  32.         int position = num & 0x07;  
  33.          
  34.         //将1左移position后,那个位置自然就是1,然后和以前的数据做&,判断是否为0即可 
  35.         return (bits[arrayIndex] & (1 << position)) !=0;  
  36.     } 
  37.      
  38.     public void clear(int num){ 
  39.         // num/8得到byte[]的index 
  40.         int arrayIndex = num >> 3;  
  41.          
  42.         // num%8得到在byte[index]的位置 
  43.         int position = num & 0x07;  
  44.          
  45.         //将1左移position后,那个位置自然就是1,然后对取反,再与当前值做&,即可清除当前的位置了. 
  46.         bits[arrayIndex] &= ~(1 << position);  
  47.  
  48.     } 
  49.      
  50.     public static void main(String[] args) { 
  51.         BitMap bitmap = new BitMap(100); 
  52.         bitmap.add(7); 
  53.         System.out.println("插入7成功"); 
  54.          
  55.         boolean isexsit = bitmap.contain(7); 
  56.         System.out.println("7是否存在:"+isexsit); 
  57.          
  58.         bitmap.clear(7); 
  59.         isexsit = bitmap.contain(7); 
  60.         System.out.println("7是否存在:"+isexsit); 
  61.     } 

总结:

Bitmap典型的应用场景为:大量数据的快速排序、查找、去重

其被广泛用于数据库和搜索引擎中,通过利用位级并行,它们可以显著加快查询速度。

但是,位图索引会占用大量的内存,因此我们会更喜欢压缩位图索引。

以上为全部内容。

 

责任编辑:未丽燕 来源: 今日头条
相关推荐

2024-07-04 13:42:12

2024-08-13 14:10:49

2019-08-20 00:39:28

数据存储层冗余

2024-06-03 06:45:18

2022-11-16 13:16:23

微软Windows

2024-03-06 09:22:23

C#数据库判重

2023-09-04 10:10:47

插件页面元素

2024-02-19 11:49:23

JavaBitMap类型

2015-04-03 12:47:14

NoSQL开源非关系型数据库

2021-01-26 05:33:07

排序算法快速

2019-03-05 10:16:54

数据分区表SQLserver

2021-02-03 10:43:54

Linux系统磁盘

2017-02-17 11:50:18

AndroidBitmap缓存池

2020-02-20 14:20:28

Windows 10启动程序加载时间

2021-02-05 10:27:25

Windows 10Windows微软

2021-05-24 08:58:34

Redis Bitmap 数据统计

2024-07-02 08:28:17

开源代码社区

2010-05-10 15:22:34

Oracle数据字典

2010-10-14 14:28:25

2024-04-15 08:30:53

MySQLORM框架
点赞
收藏

51CTO技术栈公众号