上亿数据,限制1G内存,如何去重?

开发
当涉及到大量数据去重时,常见的 Java Set、List,甚至是 Java 8 的新特性 Stream 流等方式就显得不太合适了。在处理大量数据的需求场景下,我们不得不提及 BitMap。

有许多方法可以用来去重,比如使用列表、集合等等,但这些方法通常只适用于一般情况。然而,当涉及到大量数据去重时,常见的 Java Set、List,甚至是 Java 8 的新特性 Stream 流等方式就显得不太合适了。在处理大量数据的需求场景下,我们不得不提及 BitMap。

什么是BitMap?有什么用?

(1) 基本概念

位图(BitMap),基本思想就是用一个bit来标记元素,bit是计算机中最小的单位,也就是我们常说的计算机中的0和1,这种就是用一个位来表示的。

所谓位图,其实就是一个bit数组,即每一个位置都是一个bit,其中的取值可以是0或者1

像上面的这个位图,可以用来表示1,,4,6:

如果不用位图的话,我们想要记录1,4,,6 这三个整型的话,就需要用三个unsigned int,已知每个unsigned int占4个字节,那么就是34 = 12个字节,一个字节有8 bit,那么就是 128 = 96 个bit。

所以,位图最大的好处就是节省空间。

位图有很多种用途,特别适合用在去重、排序等场景中,著名的布隆过滤器就是基于位图实现的。

(2) 位图的优势

  • 空间效率优势:为徒极大的节省了存储空间,对于大量稀疏数据,特别是当元素数量远大于实际存在的项时,相比较于使用传统的列表、集合等数据结构,位图的空间占用极小。
  • 查询速度:由于内存访问时按字节或字进行的。因此对单个元素的存在性检查时间复杂度为O(1),即常量时间,非常快速。
  • 批量操作高效:对于批量插入、删除和查询操作,尤其是统计范围内元素的数量,位图表现出优秀的性能。

(3) 位图的劣势

但是位图也有着一定的限制,那就是他只能表示0和1,无法存储其他的数字。所以他只适合这种能表示true or false的场景。

BitMap和Int的区别

以Java中的int为例,来对比观察BitMap的优势,再Java中,int类型通常需要32位,而BitMap使用1位就可以来标识此元素是否存在,所以可以认为BitMap占用的空间大小只有int类型的1/32,所以有大量数据判重时,使用BitMap也可以实现。

了解了什么是BitMap,那么我们就可以使用BitMap来解决大量数据去重的问题。

40亿个无符号整数内存只有1G,如果要去重的话,如何解决

假设40亿个无符号整数数据都是10位的话,如果直接使用内存来存储,大约需要14.9GB 的空间。

  • 每个无符号整数通常占用4个字节(32位),因此40亿个无符号整数所需要的总字节数位4*4000000000字节。
  • 总字节数转换为GB:4*4000000000 / 1024 / 1024 /1024 = 14.9 GB

考虑到其中有一些重复的数据,即使这样1G的空间基本上也是不够的。所以想要实现这个功能可以借助BitMap。

如果使用位图的话,40亿数据存储所需要的内存大概也就是 476M:

  • 40亿无符号整数数据的总字节数是4000000000 字节,在位图中1个10位的无符号整数可以使用1 bit表示,然后1 字节 = 8 位(bit)。
  • 4000000000 bit * 1/8  求出字节数,再 / 1024得到占用的KB数,最后/ 1024得到占用的MB数
  • 4000000000 * 1 /8 /1024/1024 = 476M

这样相比于之前的14.9G来说,大大的节省了很多空间。

比如要把数据"714771310"放到BitMap中,就需要找到第714771310这个位置,然后把他设置成1就可以了。

这样,把40亿个数字都放到BitMap之后,所有位置上是1的表示存在,不为1的表示不存在,相同的数据只需要设置一次1就可以了,那么,最终就把所有是1的数字遍历出来就行了。

BitMap在Java中的使用

BitMap在Java中的具体实现时java.util中的BitSet,BitSet是一个可变大小的位向量,能够动态增长以容纳更多的数据,以下是BitSet基本使用示例:

public class BitmapExample {
    public static void main(String[] args) {
        // 创建一个BitSet实例
        BitSet bitMap = new BitSet();
        // 设置第5个位置为1,表示第5个元素存在
        bitMap.set(5);

        // 检查第五个位置是否已经设置
        boolean exists = bitMap.get(5);
        
        // 输出:Element at position 5 exists: true
        System.out.println("Element at position 5 exists: " + exists);

        // 设置从索引10到20的所有位置为1,参数是包含起始点不包含终点的区间
        bitMap.set(10, 21);

        // 计算BitSet中所有位置为1的位的数量,相当于计算设置了的元素个数
        int count = bitMap.cardinality();
        System.out.println("Number of set bits: " + count);

        // 清除第五个位置
        bitMap.clear(5);

        // 判断位图是否为空
        boolean isEmpty = bitMap.isEmpty();
        System.out.println("Is the BitSet empty after clearing some bits? " + isEmpty);
        
        
    }
}
责任编辑:赵宁宁 来源: 码上遇见你
相关推荐

2010-03-01 09:03:53

谷歌宽带光纤

2023-12-27 07:56:29

内存哈希算法排序算法

2015-04-09 14:26:07

2016-12-21 15:33:11

中国移动4G尚冰

2020-09-01 17:19:36

数据监控建模

2021-05-13 09:39:48

5G运营商网络

2009-09-18 09:57:01

华硕服务器促销

2021-12-08 09:53:50

腾讯QQ号码重复

2020-08-17 08:21:31

数据查询项目

2018-01-21 23:14:09

戴尔

2012-05-21 18:13:42

360特供机

2017-12-22 10:34:02

大数据AI存储

2022-02-09 22:49:06

1G移动通信

2019-03-28 06:31:01

2019-03-10 15:54:22

5G通信4G

2024-06-03 06:45:18

2011-10-20 13:41:57

神舟台式机

2020-04-27 09:42:11

5G6G通信

2022-03-09 07:21:10

网络攻击5G

2012-04-11 15:36:57

联想笔记本
点赞
收藏

51CTO技术栈公众号