两组数据量相对大时,如何高效进行比对

大数据 新闻
这三种方案,两层循环效率是最低,而且随着数据量增大会有OOM的风险。

01 前言

前阵子项目因业务需要,要对接兄弟部门的用户数据,因为兄弟部门并不提供增量用户数据接口,每次只能从兄弟部门那边同步全量用户数据。全量的用户数据大概有几万条。因为是全量数据,因此我们这边要做数据比对( 注:  用户username是唯一),如果同步过来的数据,我们这边没有,就要做插入操作,如果我们这边已经有,就要做更新操作。本文就来聊聊当数据量相对大时,如何进行对比

02 比对逻辑

因用户username是唯一的,因此我们可以利用用户username来进行比对匹配

03 比对实现

1.方案一:两层嵌套循环比对

即:将接口的全量数据和我们数据库的全量数据进行循环比对

示例

@Override
public void compareAndSave(List<User> users, List<MockUser> mockUsers) {
List<User> addUsers = new ArrayList<>();
List<User> updateUsers = new ArrayList<>();
for (MockUser mockUser : mockUsers) {
for (User user : users) {
if(mockUser.getUsername().equals(user.getUsername())){
int id = user.getId();
BeanUtils.copyProperties(mockUser,user);
user.setId(id);
updateUsers.add(user);
}else{
User newUser = new User();
BeanUtils.copyProperties(mockUser,newUser);
addUsers.add(newUser);
}
}
}

}

用这种方法,我在测试环境压了30万条数据,比对数据等了大概20分钟后,直接OOM

2.方案二:使用布隆过滤器

即:比对开始前,先将我们这边的数据压入布隆过滤器,然后通过布隆过滤器来判定接口数据

示例

@Override
public void compareAndSave(List<User> users,List<MockUser> mockUsers){
List<User> addUsers = new ArrayList<>();
List<User> updateUsers = new ArrayList<>();
BloomFilter<String> bloomFilter = getUserNameBloomFilter(users);
for (MockUser mockUser : mockUsers) {
boolean isExist = bloomFilter.mightContain(mockUser.getUsername());
//更新
if(isExist){
User user = originUserMap.get(mockUser.getUsername());
int id = user.getId();
BeanUtils.copyProperties(mockUser,user);
user.setId(id);
updateUsers.add(user);
}else{
User user = new User();
BeanUtils.copyProperties(mockUser,user);
addUsers.add(user);
}
}

}

用这种方法,我在测试环境压了30万条数据,比对耗时1秒左右

3.方案三:使用list + map比对

即:比对开始前,先将我们这边数据存放到map中,map的key为username,value为用户数据,然后遍历接口数据,进行比对

示例

@Override
public void compareAndSave(List<User> users, List<MockUser> mockUsers) {
Map<String,User> originUserMap = getOriginUserMap(users);
List<User> addUsers = new ArrayList<>();
List<User> updateUsers = new ArrayList<>();
for (MockUser mockUser : mockUsers) {
if(originUserMap.containsKey(mockUser.getUsername())){
User user = originUserMap.get(mockUser.getUsername());
int id = user.getId();
BeanUtils.copyProperties(mockUser,user);
user.setId(id);
updateUsers.add(user);
}else{
User user = new User();
BeanUtils.copyProperties(mockUser,user);
addUsers.add(user);
}
}
}

用这种方法,我在测试环境压了30万条数据,比对耗时350毫秒左右

04 总结

这三种方案,两层循环效率是最低,而且随着数据量增大会有OOM的风险。采用布隆过滤器,存在误判的风险,为了降低误判风险,只能降低误判率,可以通过参数指定,但这也增加判断时间。用map可以说是效率最好,他本质是将时间复杂度从O(n2)降低到O(n)。不过这种方案可能也不是最优方案,事后和朋友讨论下,他说可以用啥双向指针啥,因为我在算法这方面没有深入研究,因此本文就没演示了

05 demo链接

https://github.com/lyb-geek/springboot-learning/tree/master/springboot-comparedata。

责任编辑:张燕妮 来源: Linyb极客之路
相关推荐

2009-12-08 09:21:13

WCF数据量

2024-11-15 09:54:58

2024-10-29 10:15:31

JMMJava

2011-04-18 11:13:41

bcp数据导入导出

2017-11-22 15:33:56

MySQL快速插入语句优化

2024-01-23 12:56:00

数据库微服务MySQL

2019-09-27 12:44:03

数据建模企业数据存储

2024-07-30 15:56:42

2013-12-18 11:11:43

UPYUN数据

2021-01-07 07:46:34

MyBatis 数据量JDBC

2018-06-01 09:42:43

数据Spark规模

2021-04-07 10:20:31

MySQL数据库命令

2024-11-13 15:22:36

Python列表切片

2013-11-20 16:29:41

SAP中国商业同略会DVM

2016-10-19 09:25:46

数据库OracleMySQL

2020-07-19 10:53:42

数据库MySQL迁移

2022-08-14 14:52:45

数据存储实践

2020-06-29 19:15:54

MySQL 数据量性能

2013-01-11 09:39:56

WLAN3GLTE

2011-03-03 10:32:07

Mongodb亿级数据量
点赞
收藏

51CTO技术栈公众号