OpenMP程序设计的两个小技巧-mpi与openmp并行程序设计

1、动态设置并行循环的线程数量

在实际情况中，程序可能运行在不同的机器环境里，有些机器是双核，有些机器是4核甚至更多核。并且未来硬件存在升级的可能，CPU核数会变得越来越多。如何根据机器硬件的不同来自动设置合适的线程数量就显得很重要了，否则硬件升级后程序就得进行修改，那将是一件很麻烦的事情。

比如刚开始在双核系统中开发的软件，线程数量缺省都设成2，那么当机器升级到4核或8核以后，线程数量就不能满足要求了，除非修改程序。

线程数量的设置除了要满足机器硬件升级的可扩展性外，还需要考虑程序的可扩展性，当程序运算量增加或减少后，设置的线程数量仍然能够满足要求。显然这也不能通过设置静态的线程数量来解决。

在具体计算需要使用多少线程时，主要需要考虑以下两点：

1）当循环次数比较少时，如果分成过多数量的线程来执行，可能会使得总运行时间高于较少线程或一个线程执行的情况。并且会增加能耗。

2）如果设置的线程数量远大于CPU核数的话，那么存在着大量的任务切换和调度等开销，也会降低整体效率。

那么如何根据循环的次数和CPU核数来动态地设置线程的数量呢？下面以一个例子来说明动态设置线程数量的算法，假设一个需要动态设置线程数的需求为：

1、以多个线程运行时的每个线程运行的循环次数不低于4次

2、总的运行线程数最大不超过2倍CPU核数

下面代码便是一个实现上述需求的动态设置线程数量的例子

const int MIN_ITERATOR_NUM = 4; 
   int ncore = omp_get_num_procs(); //获取执行核的数量 
   int max_tn = n / MIN_ITERATOR_NUM; 
   int tn = max_tn > 2*ncore ? 2*ncore : max_tn; //tn表示要设置的线程数量 
#pragma omp parallel for if( tn > 1) num_threads(tn) 
     for ( i = 0; i < n; i++ ) 
     { 
         printf("Thread Id = %ld/n", omp_get_thread_num()); 
         //Do some work here 
     }

在上面代码中，根据每个线程运行的循环次数不低于4次，先计算出最大可能的线程数max_tn，然后计算需要的线程数量tn，tn的值等于max_tn和2倍CPU核数中的较小值。

然后在parallel for构造中使用if子句来判断tn是否大于1，大于1时使用单个线程，否则使用tn个线程，，这样就使得设置的线程数量满足了需求中的条件。

比如在一个双核CPU上，n=64，最终会以2倍CPU核数（4个）线程运行，而不会以max_tn = 64/4＝16个线程运行。

在实际情况中，当然不能每个循环都象上面一样写几行代码来计算一遍，可以将其写成一个独立的功能函数如下：

const int g_ncore = omp_get_num_procs(); //获取执行核的数量 
  
/** 计算循环迭代需要的线程数量 
     根据循环迭代次数和CPU核数及一个线程最少需要的循环迭代次数 
     来计算出需要的线程数量，计算出的最大线程数量不超过CPU核数 
  
     @param   int n - 循环迭代次数   
     @param   int min_n - 单个线程需要的最少迭代次数    
     @return int - 线程数量     
*/ 
int dtn(int n, int min_n) 
{ 
   int max_tn = n / min_n; 
   int tn = max_tn > g_ncore ? g_ncore : max_tn; //tn表示要设置的线程数量 
   if ( tn < 1 ) 
   { 
        tn = 1; 
   } 
   return tn; 
} 
这样每次并行化循环时就可以直接使用函数dtn()来获取合适的线程数量，前面的代码可以简写成如下形式： 
#pragma omp parallel for num_threads(dtn(n, MIN_ITERATOR_NUM)) 
     for ( i = 0; i < n; i++ ) 
     { 
         printf("Thread Id = %ld/n", omp_get_thread_num()); 
         //Do some work here 
     }

当然具体设置多少线程要视情况而定的，一般情况下线程数量刚好等于CPU核数可以取得比较好的性能，因为线程数等于CPU核数时，每个核执行一个任务，没有任务切换开销。

2、嵌套循环的并行化

在嵌套循环中，如果外层循环迭代次数较少时，如果将来CPU核数增加到一定程度时，创建的线程数将可能小于CPU核数。另外如果内层循环存在负载平衡的情况下，很难调度外层循环使之达到负载平衡。

下面以矩阵乘法作为例子来讲述如何将嵌套循环并行化，以满足上述扩展性和负载平衡需求。

其实可以采用一个简单的方法将最外层循环和第2层循环合并成一个循环，下面便是采用合并循环后的并行实现。

void Parallel_Matrix_Multiply(int *a, int row_a, int col_a, 
                     int *b, int row_b,int col_b, 
                     int *c, int c_size ) 
{ 
    if ( col_a != row_b ) 
    { 
        return; 
    } 
  
    int i, j, k; 
    int index; 
    int border = row_a * col_b; 
  
    i = 0; 
    j = 0; 
#pragma omp parallel private(i,j,k) num_threads(dtn(border, 1)) 
    for ( index = 0; index < border; index++ ) 
    { 
        i = index / col_b; 
        j = index % col_b; 
  
        int row_i = i * col_a; 
        int row_c = i * col_b; 
  
        c[row_c+j] = 0; 
        for ( k = 0; k < row_b; k++ ) 
        { 
            c[row_c + j] += a[row_i+k] * b[k*col_b+j]; 
        } 
    } 
}

从上面代码可以看出，合并后的循环边界border = row_a * col_b;即等于原来两个循环边界之积，然后在循环中计算出原来的外层循环和第2层循环的迭代变量i和j，采用除法和取余来求出i和j的值。

需要注意的是，上面求i和j的值必须要保证循环迭代的独立性，即不能有循环迭代间的依赖关系。不能将求i和j值的过程优化成如下的形式：

if ( j == col_b ) 
{ 
     j = 0; 
     i++; 
} 
// …… 此处代表实际的矩阵乘法代码 
j++;

上面这种优化，省去了除法，效率高，但是只能在串行代码中使用，因为它存在循环迭代间的依赖关系，无法将其正确地并行化。

原文链接：http://blog.csdn.net/drzhouweiming/article/details/2472454