Эксперименты проводились на вычислительном кластере на базе процессоров Intel Xeon 4 EM64T, 3000 МГц и сети Gigabit Ethernet под управлением операционной системы Microsoft Windows Server 2003 Standard x64 Edition и системы управления кластером Microsoft Compute Cluster Server.
Для оценки длительности ? базовой скалярной операции проводилось решение задачи умножения матриц при помощи последовательного алгоритма и полученное таким образом время вычислений делилось на общее количество выполненных операций – в результате подобных экспериментов для величины ? было получено значение 6,4 нсек. Эксперименты, выполненные для определения параметров сети передачи данных, показали значения латентности a и пропускной способности b соответственно 130 мкс и 53,29 Мбайт/с. Все вычисления производились над числовыми значениями типа double, т.е. величина w равна 8 байт.
Результаты вычислительных экспериментов приведены в таблице 7.1. Эксперименты выполнялись с использованием двух, четырех и восьми процессоров.
500 | 0,8752 | 0,3758 | 2,3287 | 0,1535 | 5,6982 | 0,0968 | 9,0371 |
1000 | 12,8787 | 5,4427 | 2,3662 | 2,2628 | 5,6912 | 0,6998 | 18,4014 |
1500 | 43,4731 | 20,9503 | 2,0750 | 11,0804 | 3,9234 | 5,1766 | 8,3978 |
2000 | 103,0561 | 45,7436 | 2,2529 | 21,6001 | 4,7710 | 9,4127 | 10,9485 |
2500 | 201,2915 | 99,5097 | 2,0228 | 56,9203 | 3,5363 | 18,3303 | 10,9813 |
3000 | 347,8434 | 171,9232 | 2,0232 | 111,9642 | 3,1067 | 45,5482 | 7,6368 |
Рис. 7.4. Зависимость ускорения от количества процессоров при выполнении первого параллельного алгоритма матричного умножения при ленточной схеме распределения данных
Сравнение экспериментального времени выполнения эксперимента и теоретического времени Tp из формулы (7.8) представлено в таблице 7.2 и на рис. 7.5.
Рис. 7.5. График зависимости от объемап исходных данных теоретического и экспериментального времени выполнения параллельного алгоритма на двух процессорах (ленточная схема разбиения данных
Вычислительные эксперименты для оценки эффективности параллельного алгоритма проводились при тех же условиях, что и ранее выполненные (см. п. 7.3.5). Результаты экспериментов с использованием четырех и девяти процессоров приведены в таблице 7.3.
500 | 0,8527 | 0,2190 | 3,8925 | 0,1468 | 5,8079 |
1000 | 12,8787 | 3,0910 | 4,1664 | 2,1565 | 5,9719 |
1500 | 43,4731 | 10,8678 | 4,0001 | 7,2502 | 5,9960 |
2000 | 103,0561 | 24,1421 | 4,2687 | 21,4157 | 4,8121 |
2500 | 201,2915 | 51,4735 | 3,9105 | 41,2159 | 4,8838 |
3000 | 347,8434 | 87,0538 | 3,9957 | 58,2022 | 5,9764 |
Рис. 7.7. Зависимость ускорения от размера матриц при выполнении параллельного алгоритма Фокса
Рис. 7.8. График зависимости экспериментального и теоретического времени выполнения алгоритма Фокса на четырех процессорах
500 | 0,4217 | 0,2190 | 0,2200 | 0,1468 |
1000 | 3,2970 | 3,0910 | 1,5924 | 2,1565 |
1500 | 11,0419 | 10,8678 | 5,1920 | 7,2502 |
2000 | 26,0726 | 24,1421 | 12,0927 | 21,4157 |
2500 | 50,8049 | 51,4735 | 23,3682 | 41,2159 |
3000 | 87,6548 | 87,0538 | 40,0923 | 58,2022 |
Сравнение времени выполнения эксперимента и теоретического времени Tp, вычисленного в соответствии с выражением (7.13), представлено в таблице 7.4 и на рис. 7.8.
Вычислительные эксперименты для оценки эффективности параллельного алгоритма проводились при тех же условиях, что и ранее выполненные (см. п. 7.3.5). Результаты экспериментов для случаев четырех и девяти процессоров приведены в таблице 7.5.
1000 | 12,8787 | 3,0806 | 4,1805 | 1,1889 | 10,8324 |
1500 | 43,4731 | 11,1716 | 3,8913 | 4,6310 | 9,3872 |
2000 | 103,0561 | 24,0502 | 4,2850 | 14,4759 | 7,1191 |
2500 | 201,2915 | 53,1444 | 3,7876 | 23,5398 | 8,5511 |
3000 | 347,8434 | 88,2979 | 3,9394 | 36,3688 | 9,5643 |
Сравнение времени выполнения эксперимента и теоретического времени Tp, вычисленного в соответствии с выражением (7.16), представлено в таблице 7.6 и на рис. 7.11.
1000 | 3,4485 | 3,0806 | 1,5669 | 1,1889 |
1500 | 11,3821 | 11,1716 | 5,1348 | 4,6310 |
2000 | 26,6769 | 24,0502 | 11,9912 | 14,4759 |
2500 | 51,7488 | 53,1444 | 23,2098 | 23,5398 |
3000 | 89,0138 | 88,2979 | 39,8643 | 36,3688 |
Рис. 7.10. Зависимость ускорения от размера матриц при выполнении параллельного алгоритма Кэннона
Рис. 7.11. График зависимости экспериментального и теоретического времени выполнения алгоритма Кэннона на четырех процессорах