MPI_Scatter会降低代码的速度吗?

时间:2015-05-31 17:40:12

标签: c++ c parallel-processing mpi

民间!我写了一个代码,用MPI计算两个巨大向量的标量积。 首先,等级为0的过程会创建两个随机向量,并通过MPI_Scatter将其发送给其余的向量。之后,他们计算他们的部分总和并将其发送回等级0的过程。 主要问题是MPI_Scatter需要花费大量时间将数据发送到其他进程,因此我的程序会因其他进程而变慢。我用MPI_Wtime()测量它,MPI_Scatter()函数在某些情况下占用了80%的计算时间。 我的串行代码比我尝试过的任何MPI设置都要快。

这些是我在具有不同进程数量的双核上的结果:

处理时间

Serial 0,3275

1 0,3453

2 0,4522

4 3,4755

8 5,8645

10 8,9112

20 24,4612

40 63,2633

你知道如何避免这种瓶颈吗? 不要介意MPI_Allgather()......这是作业的一部分:)

int main(int argc, char* argv[])
{
srand(time(NULL));
int size, len, whoAmI, i, j, k;
int N = 10000000;
double start, elapsed_time, end;
double *Vec1, *Vec2;

MPI_Init(&argc, &argv);
start = MPI_Wtime();

MPI_Comm_size(MPI_COMM_WORLD, &size);
MPI_Comm_rank(MPI_COMM_WORLD, &whoAmI);

if(N%size != 0){
    printf("choose a number that can be divided through 10000000\n");
    exit(1);
}

int chunk = N/size;

double *buf1 = malloc(chunk * sizeof(double));  // Recv_Buf for MPI_scatter
double *buf2 = malloc(chunk * sizeof(double)); 
double *gatherResult = malloc(size*(sizeof(double)));   //Recv_Buf for MPI_Allgather
double result, FinalResult = 0;

if(whoAmI == 0){

    Vec1 = malloc(N * sizeof(double));
    Vec2 = malloc(N * sizeof(double));
    random_Vector(Vec1, N);
    random_Vector(Vec2, N); 
}   

/* sends the divided array to the other processes */
MPI_Scatter(Vec1, chunk, MPI_DOUBLE, buf1, chunk, MPI_DOUBLE, 0, MPI_COMM_WORLD);
MPI_Scatter(Vec2, chunk, MPI_DOUBLE, buf2, chunk, MPI_DOUBLE, 0, MPI_COMM_WORLD);

if(whoAmI == 0){
    end = MPI_Wtime();
    elapsed_time = end - start;
    printf("Time taken %.4f seconds\n", elapsed_time);
}

for(i = 0; i < chunk; i ++){
    result += buf1[i] * buf2[i];
}

printf("The sub result: #%d, %.2f\n",whoAmI, result);

/* Allgather: (sendBuf, number of Elements in SendBuf, Type of Send, Number of Elements Recv, Recv Type, Comm)*/
MPI_Allgather(&result, 1 , MPI_DOUBLE, gatherResult, 1, MPI_DOUBLE , MPI_COMM_WORLD);

for(i = 0; i < size; i++){
    FinalResult += gatherResult[i]; 
}

MPI_Barrier(MPI_COMM_WORLD);
end = MPI_Wtime();
elapsed_time = end - start;

if(whoAmI == 0){
    printf("FinalResult is: %.2f\n", FinalResult);
    printf("Time taken %.4f seconds\n", elapsed_time);
    VecVec_Test(N, Vec1, Vec2, FinalResult);  // Test if the Result is correct
}

MPI_Barrier(MPI_COMM_WORLD);

return 0;
}

1 个答案:

答案 0 :(得分:3)

只有当向量已经以分布式方式存储时,标量积的分布式计算才有意义,否则每次将大向量的内容从网络(或其他任何IPC机制到位)推送到根到其他进程将需要更多时间才能完成所有工作的单线程进程。标量产品是一个受内存限制的问题,这意味着当前的CPU内核速度太快,以至于当数据来自主内存而不是来自CPU缓存时,它很可能会以比CPU内核能够处理的速度慢的速度到达

为了演示MPI在这种情况下如何帮助,你可以做些什么来修改算法,以便首先分散向量,然后多次计算分布式标量积:

MPI_Scatter(Vec1, buf1);
MPI_Scatter(Vec2, buf2);

// Always a good idea to sync the processes before benchmarking
MPI_Barrier();

start = MPI_Wtime();

for (i = 1; i <= 1000; i++) {
   local_result = dotprod(buf1, buf2);
   MPI_Reduce(&local_result, &result, MPI_SUM);
}

end = MPI_Wtime();

printf("Time per iteration: %f\n", (end - start) / 1000);

(伪代码,不是真正的C ++)

现在,您应该看到每次迭代的时间随着MPI进程的数量而减少,但只有添加更多MPI进程意味着更多的CPU套接字,因此聚合内存带宽更高。请注意使用MPI_Reduce代替MPI_Gather后跟sum。