Теория и практика параллельных вычислений

         

Результаты вычислительных экспериментов


Эксперименты проводились на вычислительном кластере на базе процессоров Intel Xeon 4 EM64T, 3000 МГц и сети Gigabit Ethernet под управлением операционной системы Microsoft Windows Server 2003 Standard x64 Edition и системы управления кластером Microsoft Compute Cluster Server.

Для оценки длительности ? базовой скалярной операции проводилось решение задачи умножения матриц при помощи последовательного алгоритма и полученное таким образом время вычислений делилось на общее количество выполненных операций – в результате подобных экспериментов для величины ? было получено значение 6,4 нсек. Эксперименты, выполненные для определения параметров сети передачи данных, показали значения латентности a и пропускной способности b соответственно 130 мкс и 53,29 Мбайт/с. Все вычисления производились над числовыми значениями типа double, т.е. величина w равна 8 байт.

Результаты вычислительных экспериментов приведены в таблице 7.1. Эксперименты выполнялись с использованием двух, четырех и восьми процессоров.

Таблица 7.1. Результаты вычислительных экспериментов по исследованию первого параллельного алгоритма матричного умножения при ленточной схеме распределения данных

Размер матрицыПоследовательный алгоритмПараллельный алгоритм2 процессора4 процессора8 процессоровВремяУскорениеВремяУскорениеВремяУскорение
5000,87520,37582,32870,15355,69820,09689,0371
100012,87875,44272,36622,26285,69120,699818,4014
150043,473120,95032,075011,08043,92345,17668,3978
2000103,056145,74362,252921,60014,77109,412710,9485
2500201,291599,50972,022856,92033,536318,330310,9813
3000347,8434171,92322,0232111,96423,106745,54827,6368


Рис. 7.4.  Зависимость ускорения от количества процессоров при выполнении первого параллельного алгоритма матричного умножения при ленточной схеме распределения данных

Сравнение экспериментального времени выполнения эксперимента и теоретического времени Tp из формулы (7.8) представлено в таблице 7.2 и на рис. 7.5.


Рис. 7.5.  График зависимости от объемап исходных данных теоретического и экспериментального времени выполнения параллельного алгоритма на двух процессорах (ленточная схема разбиения данных


Вычислительные эксперименты для оценки эффективности параллельного алгоритма проводились при тех же условиях, что и ранее выполненные (см. п. 7.3.5). Результаты экспериментов с использованием четырех и девяти процессоров приведены в таблице 7.3.

Таблица 7.3. Результаты вычислительных экспериментов по исследованию параллельного алгоритма Фокса

Размер матрицПоследовательный алгоритмПараллельный алгоритм4 процессора9 процессоровВремяУскорениеВремяУскорение
5000,85270,21903,89250,14685,8079
100012,87873,09104,16642,15655,9719
150043,473110,86784,00017,25025,9960
2000103,056124,14214,268721,41574,8121
2500201,291551,47353,910541,21594,8838
3000347,843487,05383,995758,20225,9764


Рис. 7.7.  Зависимость ускорения от размера матриц при выполнении параллельного алгоритма Фокса


Рис. 7.8.  График зависимости экспериментального и теоретического времени выполнения алгоритма Фокса на четырех процессорах

Таблица 7.4. Сравнение экспериментального и теоретического времени параллельного алгоритма Фокса

Размер матриц4 процессора9 процессоров
5000,42170,21900,22000,1468
10003,29703,09101,59242,1565
150011,041910,86785,19207,2502
200026,072624,142112,092721,4157
250050,804951,473523,368241,2159
300087,654887,053840,092358,2022

Сравнение времени выполнения эксперимента и теоретического времени Tp, вычисленного в соответствии с выражением (7.13), представлено в таблице 7.4 и на рис. 7.8.




Вычислительные эксперименты для оценки эффективности параллельного алгоритма проводились при тех же условиях, что и ранее выполненные (см. п. 7.3.5). Результаты экспериментов для случаев четырех и девяти процессоров приведены в таблице 7.5.

Таблица 7.5. Результаты вычислительных экспериментов по исследованию параллельного алгоритма Кэннона

Размер матрицПоследовательный алгоритмПараллельный алгоритм4 процессора9 процессоровВремяУскорениеВремяУскорение
100012,87873,08064,18051,188910,8324
150043,473111,17163,89134,63109,3872
2000103,056124,05024,285014,47597,1191
2500201,291553,14443,787623,53988,5511
3000347,843488,29793,939436,36889,5643

Сравнение времени выполнения эксперимента и теоретического времени Tp, вычисленного в соответствии с выражением (7.16), представлено в таблице 7.6 и на рис. 7.11.

Таблица 7.6. Сравнение экспериментального и теоретического времени выполнения параллельного алгоритма Кэннона

Размер матриц4 процессора9 процессоров
10003,44853,08061,56691,1889
150011,382111,17165,13484,6310
200026,676924,050211,991214,4759
250051,748853,144423,209823,5398
300089,013888,297939,864336,3688


Рис. 7.10.  Зависимость ускорения от размера матриц при выполнении параллельного алгоритма Кэннона


Рис. 7.11.  График зависимости экспериментального и теоретического времени выполнения алгоритма Кэннона на четырех процессорах



Содержание раздела