У города есть свое радио !;pdf

Архитектура и программное обеспечение
суперкомпьютера «Ломоносов»
Антон Корж
Москва, 2014
Суперкомпьютер Ломоносов, видимая часть
Суперкомпьютер «Ломоносов», крупнейший в
Восточной Европе
•
•
•
•
•
•
самый мощный
суперкомпьютер в Восточной
Европе и СНГ
RPeak - 414Тфлопс, RMax –
350Тфлопс
12-е место в рейтинге TOP500
гибридная архитектура
~ 90% производительности блейд-системы T-Blade2
высокая производительность
максимально широкого
спектра приложений
Основные вычислительные лезвия
T-Blade 2
• Сверхвысокая вычислительная плотность
• Выделенные сети барьерной синхронизации и глобальных прерываний
• Единственная в мире система
с производительностью 4,5 TFlops в шасси и
с воздушным охлаждением
• До 27 ТFlops в стандартной стойке 42U
• Энергопотребление не более 11 КВт на шасси высотой 7U
• Отказоустойчивость систем питания и охлаждения
T-Blade 1.1
• Наиболее гибкая и универсальная платформа
для компьютерного моделирования и расчетов
• До 11.25 ТFlops в стойке 42U
• Стандартный слот расширения PCI-Express
Cовместим с любым интерконнектом и внешними устройствами
• Энергопотребление не более 3600 Вт на шасси высотой 5U
• Встроенный модуль управления шасси
T-BLADE 2
Вид снаружи и изнутри
T-BLADE 2
Вид снаружи и изнутри
T-BLADE 2
Вид снаружи и изнутри
T-BLADE 2
Вид снаружи и изнутри
Strictly Confidential
T-BLADE 2
Вид снаружи и изнутри
T-BLADE 2
Вид снаружи и изнутри
Основные характиристики вычислителя Ломоносова
Распределение стоек
Вычислитель -- 30+11
Системная сеть – 18
СХД – 4+2+2
Сервисная + Управляющая сеть + Сервера – 2
Кластер статистики – 1
Стойка вычислителя х86 (30шт) (42U)
5 шасси TBlade2-XN
1 шасси TBlade1.1
1 сервер с процессорами CELL
Узел TBlade2
два процессора X5570 (8 ядер), 12GB DDR3-1333 RAM, IB QDR 4x
общее число узлов 26х5х32 = 4160 + 640 12-ядерных узлов
Узел TBlade1.1
два процессора X5570 (8 ядер), 24GB DDR3-1066 RAM, 2х160GB HDD, IB
QDR 4x
общее число узлов 26х10 = 260 + 40 12-ядерных узлов
Узел Cell
Два процессора CELL, 2х IB QDR 4x
Горячие коридоры, 100 шкафов включая охлаждение
12 стоек
13 стоек
12 стоек
13 стоек
12 стоек
13 стоек
12 стоек
13 стоек
Горячие коридоры, 118 шкафов включая охлаждение
12 стоек
15 стоек
12 стоек
15 стоек
12 стоек
15 стоек
12 стоек
15 стоек
8 стоек
Суперкомпьютер «Ломоносов», МГУ, 2010
•
•
•
•
•
•
самый мощный
суперкомпьютер в Восточной
Европе и СНГ
RPeak - 414Тфлопс, RMax –
350Тфлопс
12-е место в рейтинге TOP500
гибридная архитектура
~ 90% производительности блейд-системы T-Blade2
высокая производительность
максимально широкого
спектра приложений
Коммуникационные сети
•
•
•
•
•
Системная сеть (IB)
Сервисная сеть (Eth100)
Управляющая сеть (Eth1000)
Сеть барьерных синхронизаций
Сеть глобальных прерываний
Системная сеть
•
•
Основные элементы системной сети
Корневые 324-портовые коммутаторы (18)
•
•
•
•
•
Состоит из 18+9 36-портовых чипов
36-портовые свитчи в шасси (30х5х2 = 300)
4 дополнительных 36-портовых свитча
Соединения внутри шкафа медные
Между шкафами - оптика
Системная сеть в шасси
36 port
20 внешних портов
36 port
20 внешних портов
Общая топология
324
324
18 корневых
коммутаторов
324
304 36-портовых коммутатора
36
36
36
36
36
36
36
36
Корневой коммутатор-324
36
36
36
36
36
36
9 коммутаторов
18 коммутаторов
36
36
36
36
18х18=324 внешних порта
36
36
Корневой коммутатор
Суперкомпьютер Ломоносов, инфраструктура
Суперкомпьютер Ломоносов, инфраструктура
Суперкомпьютер Ломоносов, инфраструктура
Основные стадии развития проекта
1.
2.
3.
4.
T500 (414 Тфлопс, 2009 год)
T500+ (510 ТФ, 2010 год)
Т1000 (1370 ТФ, 2011 год)
T1000+(1700ТФ, 2012 год)
Расширение до 1.7 PF/s
Основа вычислителя Т1000
•
•
•
•
•
T-Platforms TB2-TL™
Первое решение, интегрирующее
высокоплотный модуль X2070 GPU
Уникальное соотношение производительности
вычислительного модуля к энергопотреблению:
1450 МФлопс/Ватт
Уникальная плотность и эффективность 17.5TFlops в 7U; 105TFlops в 42U на операциях с двойной точностью
На каждый графический процессор приходится по
выделенному каналу PCI-Express и выделенному порту QDR InfiniBand
32 GPU Tesla ™ X2070 и 32 процессора Intel Xeon ® E5630 в
шасси 7U
TB2-TL
Лезвие TB2-TL c двумя картами Tesla X2070
Лезвие TB2-TL
Основные характеристики:
Материнская плата
•
•
•
•
•
•
Два процессора Intel Xeon L5630
12 или 24 GB DDR3-1333 RAM
Два чипсета Intel 5520 + ICH10
Два разъема MXM для карт Tesla X2070 GPU
Два выделенных 4x QDR InfiniBand порта
Поддержка сети барьерных синхронизаций и глобальных прерываний
NVIDIA Tesla™ X2070 GPU
•
•
•
GPU с частотой 1.15GHz и 448 CUDA ядрами
6GB GDDR5 памяти с ECC на частоте 1.566GHz с шириной шины 384 bit
Энергопотребление: <=225W
Сравнение вычислительных лезвий
XN
(Лезвие с Intel Xeon)
16
TL
(Лезвие с Tesla
X2070)
16
4 (2 узла)
2 (1 узел)
Модель процессора
до Xeon E5670
до Intel Xeon L5630
Число GPU в лезвии
0
До 2x
Число GPU в шасси
0
До 32х
2 (1 для каждого узла)
2
24 или 48 GB DDR3
12 или 24 GB DDR3
0
1 SSD
~4.5TF
~17.5TF
~11.2KW
~12KW
Число лезвий в шасси
7U
Число процессоров X86
Число портов IB QDR 4x
Объем памяти
HDD
Пиковая
производительность
шасси (DP)
Пиковое
энергопотребление
шасси
В 4 раза
больше
Операционная система CLUSTRX
•
Мета-OС уровня кластера
•
Единое решение для всей инфраструктуры
•
Оптимизированное управление памятью на уровне ядра
•
Легко масштабируемая система управления и мониторинга
•
Поддержка дополнительных сетей T-Blade 2
•
Поддержка гетерогенных систем
•
Проактивный режим экономии электроэнергии
•
Масштабируемость на уровне петафлопс
САОО
Автономна, легко разворачивается, совместима с различным оборудованием
Оповещение персонала (e-mail, sms)
Модуль
реакции
Скрипты
реакции
Плагины поддержки
(логика и
агрегирование)
trap
get
SNMP-оборудование
жизнеобеспечения
кластера
Конфигурируемые скриптами
управляющие воздействия
•
•
•
Быстрая автоматическая
реакция на опасность
Полное или частичное
отключение оборудования
Учет зависимостей по
инфраструктуре и сервису
СХД
•
СХД для /home (NFS) – 300 ТБ
•
Параллельная ФС (Lustre) 500 ТБ
•
СХД 3го уровня для бэкапов 1.5 ПБ
Установленное ПО
•
•
Компиляторы Intel + GNU
MPI: OpenMPI, Intel MPI
•
Планировщик на базе SLURM
•
Умеет планировать разделы учитывая
топологию
•
•
Системной сети
Барьерной сети
Основные команды
•
•
•
•
•
•
•
squeue – показывает очередь
sbatch –n 512 --ntasks-per-node=4 ompi
program
srun интерактивный запуск
sinfo – число узлов
sinfo –p regular4 (в основном разделе)
scancel 1235 – снять или убить задачу
ssh compiler – заходим на сервера
компиляции
Список разделов
•
•
•
•
•
•
•
Regular4 (default)
Hdd4
Regular6
Hdd6
Test
SMP
GPU
SINFO
export SINFO_FORMAT="%15P %10a %15D %10A“
PARTITION
test
regular4*
regular6
hdd4
hdd6
gpu
smp
AVAIL
up
up
up
up
up
up
up
NODES
64
4054
538
260
30
400
4
NODES(A/I)
0/64
3827/108
380/150
245/13
9/13
393/3
0/3
Библиотеки
•
MPI (выбирается с помощью module
load)
Openmpi-1.4
• Intel MPI
• …..
•
•
•
•
•
OpenMP
Pthreads, Posix Shared Memory,…
Ibverbs, openfabrics
CUDA
module avail
cuda/5.0.35
impi/4.1.0
mkl/4.0.2.146
openmpi/1.5.5-pgi
ekopath/4.0.11
impi/4.1.0-32bit
openmpi/1.5.5-gcc
pgi/12.9
impi/4.0.3
intel/13.1.0
openmpi/1.5.5-icc
Спасибо за внимание!
Антон Корж
Москва, 2013