浅谈利用LINQ进行分组统计

开发 后端
在现实生活中,分组统计是很常用的。例如人民银行要求商业银行报送的反洗钱报表中就有一个项目是当月发生的大额交易的笔数和金额,其中大额交易定义为某个客户的当日累计发生额在人民币20万元或者外币等值1万美元以上。这样就要从大量的交易流水账中按交易日期进行分组统计。这里我们需要利用LINQ的一些方法。

让我们来生成要统计的数据,如下所示:

  1. IEnumerable<Tuple<int, double>> GetTuples(int n)  
  2. {  
  3.   var tuples = new Tuple<int, double>[n];  
  4.   var rand = new Random();  
  5.   for (int k = 1i = 0; i < n; i++)  
  6.   {  
  7.     var r = rand.Next(n);  
  8.     k += (r >= n - 3) ? 2 : ((r >= n - 9) ? 1 : 0);  
  9.     tuples[i] = new Tuple<int, double>(k, rand.NextDouble());  
  10.   }  
  11.   return tuples;  

该方法生成 n 项已经排好序的数据。

现在,让我们来按关键字分组,并统计每组的个数和平均值。

首先,使用 C# 的 foreach 循环,如下所示:

  1. IEnumerable<Tuple<int, int, double>> ForEach(IEnumerable<Tuple<int, double>> tuples)  
  2. {  
  3.   var result = new List<Tuple<int, int, double>>();  
  4.   var count = 0;  
  5.   var sum = 0.0;  
  6.   int? key = null;  
  7.   foreach (var v in tuples)  
  8.   {  
  9.     if (key != v.Item1)  
  10.     {  
  11.       if (key != null) result.Add(new Tuple<int, int, double>(key.Value, count, sum / count));  
  12.       sum = count = 0;  
  13.       key = v.Item1;  
  14.     }  
  15.     count++;  
  16.     sum += v.Item2;  
  17.   }  
  18.   if (key != null) result.Add(new Tuple<int, int, double>(key.Value, count, sum / count));  
  19.   return result;  

这种方法有个***的缺点就是在 foreach 循环结束之后还要进行一次统计,闻到了代码的“坏味道”。

那么,就让我们来重构吧,这次,使用迭代器进行循环:

  1. IEnumerable<Tuple<int, int, double>> Iterate(IEnumerable<Tuple<int, double>> tuples)  
  2. {  
  3.   var result = new List<Tuple<int, int, double>>();  
  4.   var count = 0;  
  5.   var sum = 0.0;  
  6.   int? key = null;  
  7.   for (var iter = tuples.GetEnumerator(); ; count++, sum += iter.Current.Item2)  
  8.   {  
  9.     var hasValue = iter.MoveNext();  
  10.     if (!hasValue || key != iter.Current.Item1)  
  11.     {  
  12.       if (key != null) result.Add(new Tuple<int, int, double>(key.Value, count, sum / count));  
  13.       if (!hasValue) break;  
  14.       sum = count = 0;  
  15.       key = iter.Current.Item1;  
  16.     }  
  17.   }  
  18.   return result;  

这样,就消灭了“坏味道”。

注意,以上两种方法都假设输入数据已经排好序。如若不然,就要先对输入数据进行一次排序。

***,如果使用LINQ的话,还可以更简单:

  1. IEnumerable<Tuple<int, int, double>> Linq(IEnumerable<Tuple<int, double>> tuples)  
  2. {  
  3.   var result = new List<Tuple<int, int, double>>();  
  4.   var q = from k in tuples group k by k.Item1;  
  5.   foreach (var g in q) result.Add(new Tuple<int, int, double>(g.Key, g.Count(), g.Average(v => v.Item2)));  
  6.   return result;  

要注意LINQ 方法无论是运行时间还是占用的内存都更大。

我们来看看 Main 方法:

  1. static void Main(string[] args)  
  2. {  
  3.   try  
  4.   {  
  5.     new Program().Run(Console.Out, int.Parse(args[0]));  
  6.   }  
  7.   catch (Exception ex)  
  8.   {  
  9.     Console.WriteLine(ex);  
  10.   }  
  11. }  
  12.  
  13. void Run(TextWriter writer, int n)  
  14. {  
  15.   var tuples = GetTuples(n * 1024 * 1024);  
  16.   Write("ForEach", writer, ForEach(tuples));  
  17.   Write("Iterate", writer, Iterate(tuples));  
  18.   Write(" Linq  ", writer, Linq(tuples));  

其中的 Write 方法如下所示:

  1. void Write(string title, TextWriter writer, IEnumerable<Tuple<int, int, double>> tuples)  
  2. {  
  3.   writer.WriteLine("==========> " + title + " <============");  
  4.   writer.WriteLine("Key ------Count Average----------");  
  5.   var count = 0;  
  6.   var sum = 0.0;  
  7.   foreach (var t in tuples)  
  8.   {  
  9.     writer.WriteLine("{0,3} {1,11:N0} {2}", t.Item1, t.Item2, t.Item3);  
  10.     count += t.Item2;  
  11.     sum += t.Item2 * t.Item3;  
  12.   }  
  13.   writer.WriteLine("--- ----------- -----------------");  
  14.   writer.WriteLine("{0,3} {1,11:N0} {2}", tuples.Count(), count, sum / count);  
  15.   writer.WriteLine();  

***,这个程序的输出如下所示:

==========> ForEach <============
Key ------Count Average----------
  1      10,476 0.492122426354162
  2   1,633,289 0.499917991099794
  3     981,345 0.500446307804579
  5   1,542,377 0.500567888024527
  6     478,158 0.499376479287702
  8      62,325 0.501552373474687
  9   1,463,104 0.500270067230854
 11     802,680 0.500518684820775
 13     367,798 0.499572390413821
 14     492,947 0.500767958524
 16   2,403,053 0.500023199420802
 17     248,208 0.499988049057847
--- ----------- -----------------
 12  10,485,760 0.50018897689056

==========> Iterate <============
Key ------Count Average----------
  1      10,476 0.492122426354162
  2   1,633,289 0.499917991099794
  3     981,345 0.500446307804579
  5   1,542,377 0.500567888024527
  6     478,158 0.499376479287702
  8      62,325 0.501552373474687
  9   1,463,104 0.500270067230854
 11     802,680 0.500518684820775
 13     367,798 0.499572390413821
 14     492,947 0.500767958524
 16   2,403,053 0.500023199420802
 17     248,208 0.499988049057847
--- ----------- -----------------
 12  10,485,760 0.50018897689056

==========>  Linq   <============
Key ------Count Average----------
  1      10,476 0.492122426354162
  2   1,633,289 0.499917991099794
  3     981,345 0.500446307804579
  5   1,542,377 0.500567888024527
  6     478,158 0.499376479287702
  8      62,325 0.501552373474687
  9   1,463,104 0.500270067230854
 11     802,680 0.500518684820775
 13     367,798 0.499572390413821
 14     492,947 0.500767958524
 16   2,403,053 0.500023199420802
 17     248,208 0.499988049057847
--- ----------- -----------------
 12  10,485,760 0.50018897689056

 
这个程序中用到的 Tuple 类如下所示:

  1. class Tuple<T1, T2> 
  2. {  
  3.   public T1 Item1 { get; private set; }  
  4.   public T2 Item2 { get; private set; }  
  5.   public Tuple(T1 item1, T2 item2) { Item1 = item1Item2 = item2; }  
  6. }  
  7.  
  8. class Tuple<T1, T2, T3> : Tuple<T1, T2> 
  9. {  
  10.   public T3 Item3 { get; private set; }  
  11.   public Tuple(T1 item1, T2 item2, T3 item3) : base(item1, item2) { Item3 = item3;  }  

其实 .NET Framework 4.0 Base Class Library 中已经有 Tuple 类了。

本文中的全部源程序代码可以在这里下载。

【编辑推荐】

  1. LINQ查询表达式中的复合from子句
  2. 使用LINQ查询泛型字典Dictionary
  3. 浅谈LINQ to SQL集成数据库语言优劣
  4. 浅谈如何在ASP.NET中了解LINQ语句性能
  5. 浅谈LINQ如何插入删除和更新数据库记录备注
责任编辑:彭凡 来源: cnblogs
相关推荐

2009-09-09 15:44:22

Linq DataCo

2009-09-15 16:31:15

LINQ Custom

2009-09-11 11:25:35

LINQ函数集合

2009-09-10 11:29:00

LINQ to SQL

2009-09-10 15:45:07

Linq使用Selec

2009-09-16 11:15:52

Linq联接数据

2009-09-14 09:49:08

Linq扩展函数

2009-09-07 17:32:14

LINQ检索数据

2009-09-08 15:19:52

Linq Where操

2009-09-16 10:58:13

Linq数据分组

2021-01-20 08:30:00

数据分析机器学习IT

2009-09-15 11:08:01

LinQ调用存储过程

2009-09-14 15:45:28

LINQ删除XML节点

2009-06-18 10:07:44

LINQ to ACC

2009-09-09 11:07:52

LINQ to SQL

2009-09-18 16:32:51

Linq委托实例化

2009-09-14 13:30:04

Linq数据和对象

2009-09-08 16:55:01

Linq实现XML转换

2009-09-11 10:01:57

Linq对象初始值

2009-09-08 09:48:34

LINQ初始化数组
点赞
收藏

51CTO技术栈公众号