Архитектура и программное обеспечение суперкомпьютера «Ломоносов» Антон Корж Москва, 2014 Суперкомпьютер Ломоносов, видимая часть Суперкомпьютер «Ломоносов», крупнейший в Восточной Европе • • • • • • самый мощный суперкомпьютер в Восточной Европе и СНГ RPeak - 414Тфлопс, RMax – 350Тфлопс 12-е место в рейтинге TOP500 гибридная архитектура ~ 90% производительности блейд-системы T-Blade2 высокая производительность максимально широкого спектра приложений Основные вычислительные лезвия T-Blade 2 • Сверхвысокая вычислительная плотность • Выделенные сети барьерной синхронизации и глобальных прерываний • Единственная в мире система с производительностью 4,5 TFlops в шасси и с воздушным охлаждением • До 27 ТFlops в стандартной стойке 42U • Энергопотребление не более 11 КВт на шасси высотой 7U • Отказоустойчивость систем питания и охлаждения T-Blade 1.1 • Наиболее гибкая и универсальная платформа для компьютерного моделирования и расчетов • До 11.25 ТFlops в стойке 42U • Стандартный слот расширения PCI-Express Cовместим с любым интерконнектом и внешними устройствами • Энергопотребление не более 3600 Вт на шасси высотой 5U • Встроенный модуль управления шасси T-BLADE 2 Вид снаружи и изнутри T-BLADE 2 Вид снаружи и изнутри T-BLADE 2 Вид снаружи и изнутри T-BLADE 2 Вид снаружи и изнутри Strictly Confidential T-BLADE 2 Вид снаружи и изнутри T-BLADE 2 Вид снаружи и изнутри Основные характиристики вычислителя Ломоносова Распределение стоек Вычислитель -- 30+11 Системная сеть – 18 СХД – 4+2+2 Сервисная + Управляющая сеть + Сервера – 2 Кластер статистики – 1 Стойка вычислителя х86 (30шт) (42U) 5 шасси TBlade2-XN 1 шасси TBlade1.1 1 сервер с процессорами CELL Узел TBlade2 два процессора X5570 (8 ядер), 12GB DDR3-1333 RAM, IB QDR 4x общее число узлов 26х5х32 = 4160 + 640 12-ядерных узлов Узел TBlade1.1 два процессора X5570 (8 ядер), 24GB DDR3-1066 RAM, 2х160GB HDD, IB QDR 4x общее число узлов 26х10 = 260 + 40 12-ядерных узлов Узел Cell Два процессора CELL, 2х IB QDR 4x Горячие коридоры, 100 шкафов включая охлаждение 12 стоек 13 стоек 12 стоек 13 стоек 12 стоек 13 стоек 12 стоек 13 стоек Горячие коридоры, 118 шкафов включая охлаждение 12 стоек 15 стоек 12 стоек 15 стоек 12 стоек 15 стоек 12 стоек 15 стоек 8 стоек Суперкомпьютер «Ломоносов», МГУ, 2010 • • • • • • самый мощный суперкомпьютер в Восточной Европе и СНГ RPeak - 414Тфлопс, RMax – 350Тфлопс 12-е место в рейтинге TOP500 гибридная архитектура ~ 90% производительности блейд-системы T-Blade2 высокая производительность максимально широкого спектра приложений Коммуникационные сети • • • • • Системная сеть (IB) Сервисная сеть (Eth100) Управляющая сеть (Eth1000) Сеть барьерных синхронизаций Сеть глобальных прерываний Системная сеть • • Основные элементы системной сети Корневые 324-портовые коммутаторы (18) • • • • • Состоит из 18+9 36-портовых чипов 36-портовые свитчи в шасси (30х5х2 = 300) 4 дополнительных 36-портовых свитча Соединения внутри шкафа медные Между шкафами - оптика Системная сеть в шасси 36 port 20 внешних портов 36 port 20 внешних портов Общая топология 324 324 18 корневых коммутаторов 324 304 36-портовых коммутатора 36 36 36 36 36 36 36 36 Корневой коммутатор-324 36 36 36 36 36 36 9 коммутаторов 18 коммутаторов 36 36 36 36 18х18=324 внешних порта 36 36 Корневой коммутатор Суперкомпьютер Ломоносов, инфраструктура Суперкомпьютер Ломоносов, инфраструктура Суперкомпьютер Ломоносов, инфраструктура Основные стадии развития проекта 1. 2. 3. 4. T500 (414 Тфлопс, 2009 год) T500+ (510 ТФ, 2010 год) Т1000 (1370 ТФ, 2011 год) T1000+(1700ТФ, 2012 год) Расширение до 1.7 PF/s Основа вычислителя Т1000 • • • • • T-Platforms TB2-TL™ Первое решение, интегрирующее высокоплотный модуль X2070 GPU Уникальное соотношение производительности вычислительного модуля к энергопотреблению: 1450 МФлопс/Ватт Уникальная плотность и эффективность 17.5TFlops в 7U; 105TFlops в 42U на операциях с двойной точностью На каждый графический процессор приходится по выделенному каналу PCI-Express и выделенному порту QDR InfiniBand 32 GPU Tesla ™ X2070 и 32 процессора Intel Xeon ® E5630 в шасси 7U TB2-TL Лезвие TB2-TL c двумя картами Tesla X2070 Лезвие TB2-TL Основные характеристики: Материнская плата • • • • • • Два процессора Intel Xeon L5630 12 или 24 GB DDR3-1333 RAM Два чипсета Intel 5520 + ICH10 Два разъема MXM для карт Tesla X2070 GPU Два выделенных 4x QDR InfiniBand порта Поддержка сети барьерных синхронизаций и глобальных прерываний NVIDIA Tesla™ X2070 GPU • • • GPU с частотой 1.15GHz и 448 CUDA ядрами 6GB GDDR5 памяти с ECC на частоте 1.566GHz с шириной шины 384 bit Энергопотребление: <=225W Сравнение вычислительных лезвий XN (Лезвие с Intel Xeon) 16 TL (Лезвие с Tesla X2070) 16 4 (2 узла) 2 (1 узел) Модель процессора до Xeon E5670 до Intel Xeon L5630 Число GPU в лезвии 0 До 2x Число GPU в шасси 0 До 32х 2 (1 для каждого узла) 2 24 или 48 GB DDR3 12 или 24 GB DDR3 0 1 SSD ~4.5TF ~17.5TF ~11.2KW ~12KW Число лезвий в шасси 7U Число процессоров X86 Число портов IB QDR 4x Объем памяти HDD Пиковая производительность шасси (DP) Пиковое энергопотребление шасси В 4 раза больше Операционная система CLUSTRX • Мета-OС уровня кластера • Единое решение для всей инфраструктуры • Оптимизированное управление памятью на уровне ядра • Легко масштабируемая система управления и мониторинга • Поддержка дополнительных сетей T-Blade 2 • Поддержка гетерогенных систем • Проактивный режим экономии электроэнергии • Масштабируемость на уровне петафлопс САОО Автономна, легко разворачивается, совместима с различным оборудованием Оповещение персонала (e-mail, sms) Модуль реакции Скрипты реакции Плагины поддержки (логика и агрегирование) trap get SNMP-оборудование жизнеобеспечения кластера Конфигурируемые скриптами управляющие воздействия • • • Быстрая автоматическая реакция на опасность Полное или частичное отключение оборудования Учет зависимостей по инфраструктуре и сервису СХД • СХД для /home (NFS) – 300 ТБ • Параллельная ФС (Lustre) 500 ТБ • СХД 3го уровня для бэкапов 1.5 ПБ Установленное ПО • • Компиляторы Intel + GNU MPI: OpenMPI, Intel MPI • Планировщик на базе SLURM • Умеет планировать разделы учитывая топологию • • Системной сети Барьерной сети Основные команды • • • • • • • squeue – показывает очередь sbatch –n 512 --ntasks-per-node=4 ompi program srun интерактивный запуск sinfo – число узлов sinfo –p regular4 (в основном разделе) scancel 1235 – снять или убить задачу ssh compiler – заходим на сервера компиляции Список разделов • • • • • • • Regular4 (default) Hdd4 Regular6 Hdd6 Test SMP GPU SINFO export SINFO_FORMAT="%15P %10a %15D %10A“ PARTITION test regular4* regular6 hdd4 hdd6 gpu smp AVAIL up up up up up up up NODES 64 4054 538 260 30 400 4 NODES(A/I) 0/64 3827/108 380/150 245/13 9/13 393/3 0/3 Библиотеки • MPI (выбирается с помощью module load) Openmpi-1.4 • Intel MPI • ….. • • • • • OpenMP Pthreads, Posix Shared Memory,… Ibverbs, openfabrics CUDA module avail cuda/5.0.35 impi/4.1.0 mkl/4.0.2.146 openmpi/1.5.5-pgi ekopath/4.0.11 impi/4.1.0-32bit openmpi/1.5.5-gcc pgi/12.9 impi/4.0.3 intel/13.1.0 openmpi/1.5.5-icc Спасибо за внимание! Антон Корж Москва, 2013
© Copyright 2022 DropDoc