q_42.html

Умножение матрицы на вектор

Задача умножения двух квадратных матриц (n x n)
Последовательный код программы умножения двух квадратных матриц (n x n) на языке C:


for(i=0;i<n;i++) 
{ 

for(j=0;j<n;j++) 
{ 
c[i][j]=0; 
for(k=0;k<n;k++) 
{ 

c[i][j]=c[i][j]+a[i][j]*b[i][j]; 
}}}

Этот алгоритм требует выполнения n³ операций умножения и n³ операций сложения, ведущих к оценке общего времени (time complexity) как O(n³).
Рассмотрим различные алгоритмы распараллеливания этой задачи и сравним их производительность. Этим будет наглядно показано, что процесс распараллеливания является процессом творческим.
1)Простой параллельный код
Для n- процессоров получим общее время (time complexity) как O(n²). (Каждый процессор выполняет цикл операций для своего фиксированного i)
Для n²- процессоров получим общее время (time complexity) как O(n), где один элемент матриц A и B передается каждому процессору. (Каждый процессор выполняет цикл операций для своей пары фиксированных i и j)
В обоих случаях с n- и n²- процессорами время исполнения программы можно оценить как O(n³)=n*O(n²)=n^2,*O(n). Результат достаточно неожиданный на первый взгляд. Это не оптимальные алгоритмы распараллеливания (так как O(n³) не равно n³*O(log n).
2)Блочное матричное умножение
Алгоритм распараллеливания умножения двух квадратных матриц (n x n) с использованием подматриц
Представим нашу матрицу в виде s² подматриц. Каждая подматрица будет состоять из (n/l) x (n/l) элементов. Обозначим A_p,q подматрицу в подматрице ряда p и подматрице столбца q.
Поясняющие рисунки :
ris_10_4


for(p=0;p<s;p++) 
{ 
for(q=0;q<s;q++) 
{ 

C_p,q=0; 
for(r=0;r<m;r++) 
{ 
C_p,q=C_p,q+A_p,r*B_r,q; 
}}}

Строка программы "C_p,q=C_p,q+A_p,r*B_r,q" означает умножение подматриц A_p,r и B_r,q и дальнейшее сложение их в подматрицу C_p,q.
Для того, чтобы один процессор вычислял каждый из элементов C, понадобится n² процессоров. Необходим один ряд элементов A и один столбец элементов B. Некоторые одни и те же элементы посылаются на несколько процессоров. Можно использовать подматрицы.
На следующем рисунке изображена работа P^i,j процессора.
ris_10_6

Анализ затраченного времени
a) На обмен сообщениями:
При разделении сообщений на n² процессоров время, затраченное на коммуникации:
t_comm=n² (t_startup+2n*t_data)+n²(t_startup+ 2n*t_data)=n²(2t_startup+(2n+1)t_data)
Широкое вещание по отдельной связи даст:
t_comm=(t_startup+(n²) t_data)+ n²(t_startup+(n²) t_data).
б) На вычисления:
Вычисление каждого элемента состоит из m умножений и n сложений:
t_comm=2n
n чисел могут быть сложены за log n шагов, используя n-штук процессоров:
ris_10_7

Общее время (time complexity) при использовании n³ процессоров оценивается как O(log n).

[Назад] [Оглавление] [Вперед]

Последнее обновление 21.11.2001 WebMaster