mapreduce top n实现方式实例

云计算
在最初接触mapreduce时,top n 问题的解决办法是将mapreduce输出(排序后)放入一个集合中,取前n个,但这种写法过于简单,内存能够加载的集合的大小是有上限的,一旦数据量大,很容易出现内存溢出。今天在这里介绍另一种实现方式,虽然也不是最好的方式,但能有效得到top 最大的前n条记录。

在最初接触mapreduce时,top n 问题的解决办法是将mapreduce输出(排序后)放入一个集合中,取前n个,但这种写法过于简单,内存能够加载的集合的大小是有上限的,一旦数据量大,很容易出现内存溢出。

今天在这里介绍另一种实现方式,当然这也不是***的方式,不过正所谓一步一个脚印,迈好每一步,以后的步伐才能更坚定,哈哈说了点题外话。恩恩,以后还会有更好的方式需求,得到top ***的前n条记录。

这里只给出一些核心的代码,其他job等配置的代码略

Configuration conf = new Configuration(); 

conf.setInt("N"5); 

初始化job之前需要 conf.setInt("N",5); 意在在mapreduce阶段读取N,N就代表着top N。

以下是map

 

  1. package com.lzz.one; 
  2. import java.io.IOException; 
  3. import java.util.Arrays; 
  4. import org.apache.hadoop.io.IntWritable; 
  5. import org.apache.hadoop.io.LongWritable; 
  6. import org.apache.hadoop.io.Text; 
  7. import org.apache.hadoop.mapreduce.Mapper; 
  8.   
  9.   
  10. /** 
  11.  * topN 
  12. *  #orderid,userid,payment,productid 
  13. * [root@x00 hd]# cat seventeen_a.txt 
  14. * 1,9819,100,121 
  15. * 2,8918,2000,111 
  16. * 3,2813,1234,22 
  17. * 4,9100,10,1101 
  18. * 5,3210,490,111 
  19. * 6,1298,28,1211 
  20. * 7,1010,281,90 
  21. * 8,1818,9000,20 
  22. * [root@x00 hd]# cat seventeen_b.txt 
  23. * 100,3333,10,100 
  24. * 101,9321,1000,293 
  25. * 102,3881,701,20 
  26. * 103,6791,910,30 
  27. * 104,8888,11,39 
  28.    
  29. * 预测结果:(求 Top N=5 的结果) 
  30. * 1 9000 
  31. * 2 2000 
  32. * 3 1234 
  33. * 4 1000 
  34. * 5 910 
  35.  * @author Administrator 
  36.  * 
  37.  */ 
  38. public class TopNMapper extends Mapper<LongWritable, Text, IntWritable, IntWritable>{ 
  39.     int len; 
  40.     int top[]; 
  41.     @Override 
  42.     public void setup(Context context) throws IOException,InterruptedException { 
  43.         len = context.getConfiguration().getInt("N"10); 
  44.         top = new int[len+1]; 
  45.     } 
  46.    
  47.     @Override 
  48. public void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException { 
  49.     String line = value.toString(); 
  50.     String arr []= line.split(","); 
  51.     if(arr != null && arr.length == 4){ 
  52.         int pay = Integer.parseInt(arr[2]); 
  53.         add(pay); 
  54.     } 
  55.   
  56.   
  57. public void add(int pay){ 
  58.     top[0] = pay; 
  59.     Arrays.sort(top); 
  60.    
  61. @Override 
  62. public void cleanup(Context context) throws IOException,InterruptedException { 
  63.     for(int i=1;i<=len;i++){ 
  64.         <span></span>context.write(new IntWritable(top[i]),new IntWritable(top[i])); 
  65.     <span></span>} 
  66.  } 
  67.    
  68.   
  69.    
  70.    
  71.    
  72.    
  73.  <div> 
  74.   
  75.   
  76.    
  77.    
  78.    
  79.    
  80.  </div> 

接下来是reduce

  1. package com.lzz.one; 
  2.  
  3. import java.io.IOException; 
  4. import java.util.Arrays; 
  5.  
  6. import org.apache.hadoop.io.IntWritable; 
  7. import org.apache.hadoop.mapreduce.Reducer; 
  8.  
  9. public class TopNReduce extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable>{ 
  10. int len; 
  11. int top[]; 
  12. @Override 
  13. public void setup(Context context) 
  14. throws IOException, InterruptedException { 
  15. len = context.getConfiguration().getInt("N"10); 
  16. top = new int[len+1]; 
  17.  
  18. @Override 
  19. public void reduce(IntWritable key, Iterable<IntWritable> values, 
  20. Context context) 
  21. throws IOException, InterruptedException { 
  22. for(IntWritable val : values){ 
  23. add(val.get()); 
  24.  
  25. public void add(int pay){ 
  26. top[0] = pay; 
  27. Arrays.sort(top); 
  28.  
  29. @Override 
  30. public void cleanup(Context context) 
  31. throws IOException, InterruptedException { 
  32. for(int i=len;i>0;i--){ 
  33. context.write(new IntWritable(len-i+1),new IntWritable(top[i])); 

说一下逻辑,虽然画图比较清晰,但是时间有限,画图水平有限,只用语言来描述吧,希望能说的明白。

如果要取top 5,则应该定义一个长度为为6的数组,map所要做的事情就是将每条日志的那个需要排序的字段放入数组***个元素中,调用Arrays.sort(Array[])方法可以将数组按照正序,从数字角度说是从小到大排序,比如***条记录是9000,那么排序结果是[0,0,0,0,0,9000],第二条日志记录是8000,排序结果是[0,0,0,0,8000,9000],第三条日志记录是8500,排序结果是[0,0,0,8000,8500,9000],以此类推,每次放进去一个数字如果大于数组里面最小的元素,相当于将最小的覆盖掉了,也就是说数组中元素永远是拿到日志中***的那些个记录。

ok,map将数组原封不动按照顺序输出,reduce接收到从每个map拿到的五个排好序的元素,在进行跟map一样的排序,排序后数组里面就是按照从小到大排好序的元素,将这些元素倒序输出就是最终我们要的结果了。

与之前的方式做个比较,之前的map做的事情很少,在reduce中排序后哪前5条,reduce的压力是很大的,要把所有的数据都处理一遍,而一般设置reduce的个数较少,一旦数据较多,reduce就会承受不了,悲剧了。而现在的方式巧妙的将reduce的压力转移到了map,而map是集群效应的,很多台服务器来做这件事情,减少了一台机器上的负担,每个map其实只是输出了5个元素而已,如果有5个map,其实reduce才对5*5个数据进行了操作,也就不会出现内存溢出等问题了。

原文出自:http://my.oschina.net/u/1378204/blog/343666

责任编辑:Ophira 来源: 坏坏一笑的博客
相关推荐

2010-05-26 13:03:34

MySQL top n

2010-05-26 11:00:57

MySQL top n

2010-05-05 09:03:07

Oracle实现top

2010-05-06 15:38:10

Oracle实现SEL

2010-04-30 10:40:19

Oracle实现

2010-04-21 10:23:13

Oracle实现

2010-04-23 10:42:20

Oracle实现

2014-10-15 16:32:43

MapReducehadoop

2013-12-17 10:39:24

命令top

2021-07-26 08:31:17

算法

2010-06-03 14:33:56

HadoopStudi

2021-11-02 07:44:36

CSS 技巧进度条

2010-06-07 13:35:16

Hadoop简介

2022-03-18 09:42:54

JavaString

2023-03-06 09:20:33

CSS颜色混合

2009-03-10 10:01:00

WLAN802.11n

2010-06-03 16:18:07

Hadoop MapR

2010-06-22 13:23:18

Linux at命令详

2009-09-09 14:40:15

C# XML解析

2021-12-06 08:31:18

Oracle数据库后端开发
点赞
收藏

51CTO技术栈公众号