Проект ASCI |
Проект ASCI (Accelerated Strategic Computing Initiative - Ускоренная стратегическая вычислительная инициатива) инициирован оборонными программами Министерства энергетики США в сотрудничестве с лабораториями Lawrence Livermore и Los Alamos (США) для перехода от ядерных испытаний к методам, основанных на численном моделировании создания ядерного оружия, оценки его производительности и т.п.
Сегодня существуют отдельные версии виртуального тестирования и создания прототипов. Однако для полного удовлетворения необходимых требований к 2010 году приложения должны достигнуть более высокого разрешения, стать трёхмерными, учитывать все физические особенности системы. Такой уровень моделирования требует высокопроизводительных вычислений (HPC), лежащих далеко за сегодняшним уровнем производительности действующих систем.
Ссылка: http://www.llnl.gov/asci/.
Диаграмма 1. Необходимый прирост производительности для приложений, компьютеров и инфраструктуры.

Диаграмма 2. Необходимые требования для увеличения производительности выполнения приложений.

Диаграмма 3. План работы по увеличению производительности систем.

Диаграмма 4. Требования к росту объёмов памяти суперкомпьютеров.

Диаграмма 5. Архитектура аппаратного обеспечения для систем ASCI Red и ASCI Blue.


Система ASCI White в Ливерморской лаборатории.
В конце июня 2000-го года компания ИБМ сообщила, что она построила самый быстрый суперкомпьютер в мире, дающий до 12 триллионов вычислений в секунду, что в тысячу раз быстрее, чем производительность "Deep Blue". Суперкомпьютер RS/6000 SP, известный как ASCI White, занимающий площадь размером в два баскетбольных поля, будет использоваться Министерством энергетики США в программе по обеспечению безопасности и надёжности запасов ядерного оружия без натурных испытаний.
Система ASCI White является третьим шагом в плане Министерства энергетики США, состоящем из пяти этапов, для достижения к 2004-у году достижения суперкомпьютерной системой производительности в 100 Топер/с. В рамках ASCI проекта в течение нескольких лет предполагается создать серию суперкомпьютеров производительностью в 1, 3, 10, 30 и 100 Тфлоп.
При проверке возможностей суперкомпьютера ASCI White показал рекордную вычислительную производительность 12,28 Тфлоп, превысив требования контракта в этом пункте на 23%. Система инсталлирована в калифорнийской национальной Ливерморской лаборатории.
Система состоит из 8 192 микропроцессоров, имеет оперативную память объёмом в 6 Тбайт и дисковую память в 160 Тбайт, что достаточно для шестикратного хранения всех книг библиотеки Конгресса США.
Ссылка: http://www.llnl.gov/asci/platforms/white/index.html.
|
|
Аппаратное окружение ASCI White включает в себя систему IBM RS/6000 SP с 512-ю симметричными мультипроцессорными машинами (symmetric multiprocessor - SMP) (узлами). Каждый узел имеет 16 процессоров, а для системы в целом - 8192 процессора, обеспечивая пиковую производительность не менее 12 Топер/с. Система имеет общая память системы 4 Тбайт и дисковую память 150 Тбайт. Дополнительно система IBM SP имеет внешнюю дисковую память, параллельную файловую систему GPFS, архивную память системы и средства визуализации. Специализированная высокоскоростная сеть образует магистраль и соединяет все компоненты системы ASCI White. |
Схема внизу даёт общее представление конфигурации системы ASCI White. Таблица обеспечивает более детальную информацию.
| Общее число узлов | 512 |
| Общее число процессоров | 8 192 |
| Пиковая скорость системы, Топер/с | 12,28 |
| Оперативная память, Тбайт | 4 |
| 128 Мбайт DIMM | 33 408 |
| Пространство AIX OS, Гбайт | 1 024 |
| Пространство подкачки AIX, Гбайт | 8 192 |
| Объём системного диска, Тбайт | 190 |
| 18,2 Гбайт SCSI | 1 048 |
| Внешние I/O, Гбайт | 1 550 |
| Объём общего диска, Гбайт | 183 456 |
| Коммутационные узлы | 128 |
| Внешний Ethernet, Гбайт/с | 24 |
Система IBM SP, которая формирует ядро ASCI White, образована из многих пакетов, в большинстве своём содержащих четыре узла. Все узлы являются симметричными мультипроцессорами IBM RS/6000 POWER3 с 64-х разрядной архитектурой. Каждый узел является автономной машиной, обладающей собственной памятью, операционной системой, локальным диском и 16 процессорами. IBM производит несколько разновидностей узлов POWER3. Узлы ASCI White известны как узлы "Nighthawk-2" (NH-2).
Процессоры POWER3 являются суперскалярными (одновременное выполнение многих команд), 64-х разрядными чипами конвейерной организации с двумя устройствами по обработке команд с плавающей запятой и тремя устройствами по обработке целочисленных команд. Они способны выполнять до восьми команд за тактовый цикл и до четырёх операций с плавающей запятой за такт. Все узлы соединены внутренней коммутационной сетью SP.
| Число процессоров/Узел | 16 |
| Пиковая производительность узла, Мфлоп/с | 19 840 |
| Скорость обмена I/O с локальным диском, Мбайт/с | 40 |
| Тактовая частота процессора, МГц | 375 |
| Объём памяти, Гбайт * | 4 - 32 |
| * Все White-узлы имеют или 8, или 16 Гбайт памяти на узел. | |
Общая параллельная файловая система IBM GPFS (General Parallel File System) обеспечивает обслуживание файловой системы для параллельных и последовательных приложений, запускаемых в окружении RS/6000 SP. GPFS разработана аналогично файловой системе UNIX: почти все приложения запускаются под GPFS так же, как они запускаются в других файловых системах. Это означает, что пользователи могут продолжать использовать обычные команды UNIX для простых операций над файлами.
GPFS предоставляет совместный доступ к файлам, который может охватывать много дисководов на многих узлах SP. Отдельные файлы хранятся как ряд "блоков", распределенных через диски на различных узлах памяти. Также поддерживается одновременное чтение и запись различных файлов.
Для защиты вычислительных средств (Secure Computing Facility - SCF) используется архивная система хранения данных HPSS (High Performance Storage System):
Программное окружение ASCI White подобно окружению ASCI Blue-Pacific.
Система ASCI White построена таким образом, чтобы поддерживать смешанные моды программирования кластерной распределённой памяти с SMP общей памяти. MPI обычно используется для соединения распределённой памяти от узла к узлу. Для ASCI White подходящей моделью программирования является четыре MPI-задачи с четырьмя потоками на MPI-задачу. Ограничения на число заданий составляет 4 096 MPI-задач с высокой скоростью для US-протокола (разделитель элементов) и 8 192 MPI-задач для IP с пониженной скоростью. Существующая MPI-библиотека ограничена 32-х разрядным адресным пространством для передачи сообщений. Позднее будет введена 64-х разрядная MPI.
Оперативная система, также как и на машине ASCI Blue-Pacific, представляет собой версию UNIX IBM AIX. AIX поддерживает как 32-х, так и 64-х разрядные системы RS/6000. Номер текущей версии - AIX 4.3.
Поддержка параллельного кода на ASCI White включает параллельные библиотеки, отладчики, профилировщики, утилиты IBM и сервисные программы по анализу эффективности выполнения. Поддерживаются MPI, OpenMP, потоки POSIX и транслятор директив IBM. Доступны: параллельный отладчик IBM, средства профилирования и TotalView.
В таблице приведён основной список программного обеспечения, сгруппированный по категориям.
Пакет (Batch) |
|
|---|---|
|
DPCS |
Distributed Production Control System - пакетная система логического канала. |
|
Globus |
Удалённый доступ, использующий Globus-интерфейс |
Трансляторы (Compilers) |
|
|
KCC |
Kuck&Associates C++. |
|
gcc |
GNU-проект C. |
|
g++ |
GNU-проект C++. |
|
xlf |
Стандартный IBM AIX Fortran 77. |
|
xlf_r |
IBM SMP Fortran 77, но с использованием потоков. |
|
xlf90 |
Стандартный IBM AIX Fortran 90. |
|
xlf90_r |
IBM SMP Fortran 90, но с использованием потоков. |
|
xlc |
Стандартный IBM AIX С. |
|
xlc_r |
IBM SMP AIX C , но с использованием потоков. |
|
xlC |
Стандартный IBM AIX С++. |
|
xlC_r |
IBM SMP AIX C++ , но с использованием потоков. |
|
xlhpf |
IBM HPF. |
|
xlhpf90 |
IBM Fortran 90 HPF. |
|
mpxlf |
IBM Fortran 77 для параллельных вычислений с использованием IBM MPI. |
|
mpxlf_r |
IBM Fortran 77 для параллельных вычислений с использованием IBM MPI и потоков. |
|
mpcc |
IBM C для параллельных вычислений с использованием IBM MPI, предполагает приоритет K&R C, а не ANSI. |
|
mpcc_r |
IBM C для параллельных вычислений с использованием IBM MPI и потоков, предполагает приоритет K&R C, а не ANSI. |
|
mpCC |
IBM C++ для параллельных вычислений с использованием IBM MPI. |
|
mpCC_r |
IBM SMP C++ для параллельных вычислений с использованием IBM MPI и потоков. |
|
mpKCC |
Kuck&Associates C для параллельных вычислений с использованием IBM MPI. |
|
guidef77 |
SMP KAI Fortran для параллельных вычислений с использованием директив транслятора OpenMP. |
|
guidec |
SMP KAI C/C++ для параллельных вычислений с использованием директив транслятора OpenMP. |
Отладчики (Debuggers) |
|
|
totalview |
|
|
xpdbx |
параллельный отладчик IBM |
|
assuref77 |
Инструментарий KAI Fortran для проверки правильности параллельных программ с использованием директив транслятора OpenMP. |
|
assurec |
Инструментарий KAI C/C++ для проверки правильности параллельных программ с использованием директив транслятора OpenMP. |
Редакторы (Editors) |
|
|
ed |
Строковый редактор. |
|
emacs |
Редактор GNU Emacs вер.19. |
|
ex |
|
|
sed |
|
|
vi |
|
|
xemacs |
|
Графика (Graphics) |
|
|
cgplot |
ANSI Computer Graphics Metafiles (метафайлы машинной графики) viewer. |
|
SDSC |
Сервисные программы изображений и библиотека изображений. Манипуляция из командной строки графическими объектами и преобразование форматов изображений. Имеется 24 различные сервисные программы. |
|
NCSA HDF |
Библиотека и платформа независимого формата данных для хранения и обмена научных данных. |
|
NCAR |
Библиотека и утилиты. |
|
OpenGL |
Программный интерфейс приложений для создания интерактивной 2D и 3D компьютерной графики. |
|
dltops |
DLI для транслятора PostScript. |
|
dltocg |
DLI для транслятора CGM. |
Передача сообщений (Message Passing) |
|
|
MPI |
Библиотека MPI IBM для использования трансляторами mpxlf, mpcc и mpCC. |
|
MPICH |
Для использования трансляторами mpif77 и mpicc. |
Препроцессоры (Preprocessors) |
|
|
cccp |
GNU C-совместимый. |
|
cpp |
Выполняет включение файлов и макроподстановку исходных файлов на языке С. |
|
m4 |
Предварительная обработка файлов расширенных макроопределений на С и других языках. |

Терафлопная компьютерная система в национальной лаборатории Sandia (США).
Этот суперкомпьютер инсталлирован в национальной лаборатории Sandia (США). ASCI Red - первый компьютер с производительностью в ТераОпер/с - представляет собой массивно-параллельный компьютер с MIMD архитектурой (Multiple Instruction Multiple Data) и распределённой памятью.
Ссылка: http://www.sandia.gov/ASCI/Red/UserGuide.htm.
Архитектура системы ASCI Red представляет собой масштабируемую систему, включая пропускную способность канала связи, оперативную память, объём памяти внутреннего диска и ввода/вывода.
Суперкомпьютер организован из четырёх сегментов: Вычислительного, Сервисного, Системного и Ввода/вывода. Сервисный сегмент представляет объединённый, масштабируемый хост, который поддерживает интерактивных пользователей, разработку приложений и системное администрирование. Сегмент ввода/вывода (I/O) поддерживает масштабируемую файловую систему и сетевое обслуживание. Системный сегмент поддерживает систему надёжности, доступа и возможности обслуживания (RAS). Вычислительный сегмент содержит узлы для оптимизации вычислений с плавающей запятой и для параллельных вычислений.
| Компьютерные узлы (Red-Red / Black-Black) | 4 640 (1 168 - 2 304 / 1 168) |
| Сервисные узлы (Red / Black) | 16 (8 / 8) |
| Узлы дисков ввода/вывода (Red / Black) | 74 (37 / 37) |
| Системные узлы (Red / Black) | 2 (1 / 1) |
| Сетевые узлы - Ethernet/ATM (Red / Black) | 20 (10 / 10) |
| Число стоек (Computer / Switch / Disk) | 104 (76 / 8 / 20) |
| Системная RAM (Компьютерные узлы / Узлы ввода/вывода) | Всего 606 Гб (128 Mб / 256 Mб) |
| Пропускная способность узла канала передачи данных (двунаправленного), Мбайт/с | 800 |
| Общее число процессоров Pentium II Xeon Core | 9 536 |
| Пропускная способность процессора памяти, Мбайт/с | 533 |
| Пиковая производительность вычислительного узла, Мопер/с | 666 |
| Пиковая производительность системы, Топер | 3,15 |
| Производительность Linpack - полная система, Топер | 2,1213 |
| Дисковая память RAID - общая / на цвет, Тбайт | 12,5 / 6,25 |
Программное обеспечение суперкомпьютера представляет собой объединение оперативных систем специально приспособленных для специфических задач и стандартных вспомогательных программ. Все стандартные возможности, связанные с UNIX рабочими станциями доступны для пользователя.
Оперативная система, используемая для сервисного и системного сегментов, и сегмента ввода/вывода является распределённой версией Intel UNIX (POSIX 1003.1 и XPG3, AT&T System V.3 и 4.3 BSD Reno VFS), разработанной для суперкомпьютера Paragon XP/S. ОС Paragon представляет для пользователя отдельный образ системы. Это означает, что пользователи видят систему как отдельную UNIX-машину, несмотря на тот факт, что оперативная система запускается на распределённом семействе узлов.
Оперативная система Cougar используется для вычислительного сегмента. Cougar - это перенос системы Intel Puma, упрощённая система для ТераОпераций, основанная на очень удачной SUNMOS-системе для Paragon'а. SUNMOS и затем Puma были разработаны национальной лабораторией Sandia и университетом New Mexico (США). Системное сопровождение и поддержка интерактивных пользователей обеспечивается хостом ОС (в этом случае ОС Paragon запускается в сервисном сегменте). Все доступы к аппаратным ресурсам проходят из Q-ядра, самой нижней компоненты Cougar'а. Выше Q-ядра находятся потоки контроля процессов (process control thread - PCT), которые запускаются в пользовательском пространстве и управляют процессами. На высшем уровне расположены приложения пользователей. Как и в большинстве MPP-систем, основная программная модель в Cougar'е основана на передаче сообщений.
Поддерживаются трансляторы FORTRAN77, FORTRAN90, C и C++.
|
Blue Mountain |
|
Ссылка: http://www.lanl.gov/asci/bluemtn/.
| IBM суперкомпьютер (RS/6000 SP) ASCI Blue Pacific |
Средний настольный ПК | |
|---|---|---|
| Процессоры | 5 856 | 1 |
| Число узлов | 1 464 | 1 |
| Производительность | 3,88 TФлоп (пиковая) | 350 - 600 MГц |
| Дисковая память | 75 Tбайт (Все книги библиотеки конгресса США) |
8 - 20 Гбайт |
| Контрактная цена | $94 млн. | $1 500 |
| Оперативная память | 2,6 Tбайт | 32 - 256 Mбайт |
| Занимаемая площадь | 8 000 фут2 (743,22 м2) | 2 фут2 (0,19 м2) |
| Вес | 105 000 фунтов (47,628 т) | 19 фунтов (8,62 кг) |
| Потребляемая мощность | 486 000 ватт | 95 ватт |
| Длина кабелей | 4,08 миль (6,57 км) | 8 футов (2,44 м) |