Опыт использования вычислительных систем сверхвысокой

Опыт использования
вычислительных систем
сверхвысокой
производительности
Четверушкин Б.Н.
Институт математического
моделирования РАН
Развитие отрасли
• В настоящее время пользователю стали доступны
вычислительные системы с производительностью
более 10 Tflops.
• Многоядерность процессоров.
• Большие возможности в моделировании научных,
индустриальных, экономических, экологических и
других проблем.
• Индустриальные задачи: мультидисциплинарность,
сложная геометрия, многовариантность,
высокая точность расчётов.
• Математическое моделирование на этих системах –
важнейший фактор научно-технического прогресса и
национальной безопасности.
Проблемы
К сожалению, указанные возможности
реализуются лишь в малой степени.
• Трудности адаптации алгоритмов и
прикладного программного продукта
на архитектуру многопроцессорных,
многоядерных систем.
• Гибридная архитектура (OpenMP/MPI).
• Корректность используемых алгоритмов и
математических моделей.
• Логическая простота алгоритмов.
Постановка задачи
●
Размер сетки 128х680х1280, 111 млн. узлов
●
DNS выполнено на 512 процессорах
суперкомпьютера Marenostrum
●
схема 4-го порядка аппроксимации
●
Ra = 1011, Pr = 0.71 (воздух)
●
Соотношение высоты и ширины – 4 к 1
Heat and Mass Transfer Technological Center
Colom 11, E-08222, Terrassa, Barcelona, Spain
Институт Математического Моделирования РАН
125047, Mиусская пл. 4а, Москва
Результаты расчётов
Институт Математического Моделирования РАН
125047, Mиусская пл. 4а, Москва
•
•
•
•
•
•
•
•
•
•
•
•
Кинетические и Lattice-Boltzmann схемы
Разрывные конечные элементы (Discontinuous Galerkin)
Параллельные методы линейной алгебры
Неструктурированные и динамически адаптивные сетки
Блочное разбиение (Domain Decomposition)
Рациональное разбиение на подобласти
Визуализация данных высокопроизводительных вычислений
Динамическая балансировка загрузки процессоров
Современные CAD-технологии
Гибридные языки программирования
Обработка баз данных сверхбольшого объёма
Алгоритмы и программное обеспечение для нетрадиционных
архитектур (графические ускорители, ПЛИС)
Кинетические, Lattice Boltzman схемы,
метод стабилизационных поправок
j
j
j
df
dt
j
j+1
j
j
 d
2
 
j
  ( fM  f )

fd  ,
u 

f d  ,
E   u   
2

f
2
j
• Отличие от традиционных алгоритмов: в основе лежит дискретная
модель для одночастичной функции распределения.
• Явные схемы с хорошим (типа Куранта: τ~h)
условием устойчивости.
• Адаптация на любые, в том числе сложные
неструктурированные сетки.
• Внутренняя корректность – гарантия сглаживания на расстоянии
длины свободного пробега – успешный расчёт различного рода
неустойчивостей.
Балансные соотношения на
произвольной сетке
fI
j 1
 f I ,M
j
t

1
mes V I
k
   , n 
iI
i 1 S
iI
j 1
f i,M  f i,M
j
2
d 
1
2 mes V I
k
   ,n f
iI
i 1 S
iI
j
i,M

 f I ,M d
j
Схемы повышенного порядка точности
Метод конечных объемов / Метод конечных элементов
Метод конечных объемов:
C i «медианный» контрольный объем
тетраэдры, соседние к узлу i
Si
M
M1
3
M
a
j
вершины тетраэдра
G3
 i   C i 
G2
2
G1
G
Метод конечных элементов:
 i   i ,  i  a j    ij , S i 
T
T | a i T

Ci
 F3
  Q  F1  F 2




x
y
z
 t
 dQ 
Ci 
 
 dt  i
  F ( Q ) n
1
Ci
x

  i dxdydz 


Ci
  F1NS ( Q )  F 2NS ( Q )  F 3NS ( Q ) 

  i dxdydz




x
y
z


 N S  i
N S  i
N S  i 
B
B
 F 2 ( Q ) n y  F3 ( Q ) n z  d      F1
 F2
 F3
 dT  Φ i  D i
x
y
z 
Si 
n  n x , n y , n z  внешняя нормаль к грани контрольного объема
B
B
Φ i , Di
граничные конвективный и диффузионный потоки
Минимальные размеры в механике
сплошной среды
Выделяются масштабы, на расстояниях
меньше которых нет смысла в дальнейшей
детализации решения.
С их помощью строятся естественные
регуляризаторы, имеющие реальный
физический смысл.
• Длина свободного пробега в КС и LBS.
Задача фильтрации:

t
 div  u  0
u   k grad p
p  p0      0 

u'
u
t
 div  u 
~
 l c 
xi 2 xi
u   k grad p
p  p0      0 
Кинетическое уравнение Энскога
График давления: 1 – точное решение,
2 – решение без регуляризации,
3 – решение с регуляризацией.
Пример декартовой вложенной
иерархической сетки
с адаптацией к решению
Динамическая адаптация сетки
Сетка хранится в виде кватернарного дерева
Интерполяция и соседние элементы
p1
p7
p2
n2
n3
n4
n1
p5
p0
n6
p6
n0
n7
p3
p8
p4
n5
n8
n 12
n9
n 10
n 11
• Размеры смежных ячеек не могут отличаться более чем вдвое. Таким
образом, каждая ячейка может иметь от 6 до 12 соседей.
• Каждая ячейка имеет 9 точек интерполяции, в которых хранятся величины,
аппроксимирующие сеточные функции и их частные производные.
• Вычисления в этих точках выполняются с учётом соседних значений.
• Точки интерполяции содержат информацию, достаточную для
аппроксимации уравнений в частных производных внутри ячейки, поэтому
вычисления в смежных областях выполняются независимо.
Расчёты в гетерогенной среде
Сотовая структура: поле абсолютной проницаемости с
изменением величины на четыре порядка (10-8 - 10-12 м2)
Адаптация сетки
Индустриальные применения
Вычислительные эксперименты
по ЗПК
Институт Математического Моделирования РАН
125047, Mиусская пл. 4а, Москва
Базовая численная схема (1/2)
2D контрольные объемы
Декартова сетка
Неструктурированная
треугольная сетка
3D контрольные объемы
Декартова сетка
Неструктурированная
тетраэдральная сетка
Медианные ячейки
Ячейки на центрах описанных окружностей
Институт Математического Моделирования РАН
125047, Mиусская пл. 4а, Москва
Базовая численная схема (2/2)
Пространственный шаблон для определения потока между узлами I и J
(сложность для распараллеливания)
2D треугольная сетка
2D шаблон высокого порядка:
Противопоточные треугольники + соседи
3D тетраэдральная сетка
3D шаблон высокого порядка:
Противопоточные тетраэдры + соседи
Институт Математического Моделирования РАН
125047, Mиусская пл. 4а, Москва
Звукопоглощающие конструкции
Расчетная область
Панель ЗПК
Акустические волны
в импедансной трубе
Резонатор
Перфорированный экран
Сотовая конструкция
резонаторов
Институт Математического Моделирования РАН
125047, Mиусская пл. 4а, Москва
3D импедансная труба
Течение в отверстии резонаторной камеры
300x106 пространственных узлов, 30 Tflops, MPI + OpenMP
Институт Математического Моделирования РАН
125047, Mиусская пл. 4а, Москва
Моделирование электронного транспорта
в наноструктуре c квантовым каналом
Квантовый
GaAs/AlGaAs
транзистор
Математическая модель и методы расчета
• Система нелинейных уравнений Шредингера для
продольных электронных волн в канале
• Уравнение Пуассона для самосогласованного потенциала
электрического поля
• Задача решается в условиях непрерывного
энергетического спектра
• Волновые функции разделены по направлению и спину на
четыре класса: прямые, обратные, спин «вверх», спин «вниз».
• Количество неизвестных волновых функций изменяется в
пределах от 4000 до 40000
• Количество точек по пространственной координате
изменяется от 200 до 1000
• Уравнения Шредингера и Пуассона дискретизируются
методом конечных объемов
• Решение дискретных нелинейных уравнений производится
с помощью итераций, LU-разложения и продолжения по
энергетической координате.
Основные уравнения
Параллельная реализация
• Распараллеливание задачи производится по группам
в энергетическом пространстве
• При этом используется динамическая балансировка
загрузки процессоров, необходимая ввиду
неоднородности алгоритма расчета внутри группы
Эффективность
распараллеливания.
Сетка: 500 x 24000
Результаты моделирования:
эффект зарядовой поляризации
- электрон с положительным
спином
- электрон с отрицательным
спином
Эффект зарядовой поляризации канала состоит в том, что
усредненный по времени заряд канала квантуется и равен некоторому
целому числу, измеряемому в единицах электронного заряда. В
результате с помощью внешнего электрического поля можно
управлять количеством электронов в квантовом канале транзистора.
Эффект можно использовать для реализации новых элементов
многозначной памяти зарядового типа. Быстродействие такой
памяти составляет доли пикосекунды, то есть выигрыш достигается
только за счет многозначности. Однако плотность упаковки может
быть в 100 раз выше, чем у современных элементов памяти.
Результаты моделирования:
эффект спиновой поляризации
- электрон с положительным
спином
- электрон с отрицательным
спином
Эффект спиновой поляризации состоит в том, что можно управлять
не только количеством электронов в канале, но и распределением их
спина. В частности, можно заполнить канал электронами только с
положительным спином. Эффект можно использовать для реализации
новых элементов памяти спинового типа. Быстродействие такой
памяти составляет несколько фемтосекунд. Плотность упаковки по
крайней мере в 100 раз выше, чем у современных элементов памяти.
Используемые многопроцессорные
вычислительные системы
1) МСЦ РАН (http://www.jscc.ru)
Система МВС-100К содержит 990 вычислительных модулей,
в каждом из которых находятся:
- по два 4-ядерных процессора Intel® Xeon® 3 ГГц;
- от 4 Гб оперативной памяти.
Внутренняя сеть – Infiniband DDR, общее число ядер – 7920,
пиковая производительность – 95 Tflops.
2) НИВЦ МГУ (http://srcc.msu.ru)
Система СКИФ-МГУ содержит 625 вычислительных модулей,
в каждом из которых находятся:
- по два 4-ядерных процессора Intel® Xeon® 3 ГГц;
- от 8 Гб оперативной памяти.
Внутренняя сеть – Infiniband DDR, общее число ядер – 5000,
пиковая производительность – 60 Tflops.
НЕВЯЗКОЕ ОБТЕКАНИЕ КУЗОВА
АВТОМОБИЛЯ (М = 0.12)
Сетка: 430949 узлов, 2430306 тетраэдров
НЕВЯЗКОЕ ОБТЕКАНИЕ КУЗОВА
АВТОМОБИЛЯ
Сетка: 209028730 узлов, 1244316672 тетраэдра (24 Гб)
МВС: МВС-100К
1. Запуск задачи на 128, 192, 256, 320, 384 и 437 модулях с порождением 2 и 4 параллельных MPI
процессов (до 1748 параллельных процессов).
2. Запуск задачи на 437 модулях в рамках гибридной модели параллелизма MPI + OpenMP (3496
параллельных процессов)
CPU with Copper heat sink
Assume that all power heats the heat sink
97.5mm, 78 Copper fins
……
100mm
Copper
0.3mm thick
35mm to wall
~1.4mm
10mm
pump air @ T=20C, flux ~.004-.005 m3/sec
……
7mm
Cu
CPU
POWER=65W
30x30 mm
(1000 x 3500 x 150 = 525 млн. расчётных узлов)
Двумерная система уравнений
динамики транспортного потока

 x 
  x 
2



u  P 
  uv   



t
x
y
x  2 x
 x  2 y


 u
 v
  x 
  y  
  y 
 y   
2


v





uv
    f ;


 
y


y  2  y
y   y  2 x
 x  2 
 u
t


 u
2
x

  uv
y
 f 

x
P

 x 
  x 
3
2

u

3
P
u


u
v








x  2 x
 x  2 y

 
  y  
  y 
 y  u  
2
2

 uv    y 
u v 
 x fu  ;


 

 
y  2  y
y   y  2 x
 x
v  ku  
u
y
 kd  u

y
 kt 
u
 xt
2
 x
2
 yt
 y.
Въезд с малым потоком машин
Плотность повышается за въездом
Въезд с большим потоком машин
Плотность повышается перед въездом
Временное расширение дороги
•
•
Пропускная способность дороги падает по сравнению с прямой дорогой.
Для получения преимущества в пропускной способности расширение
дороги должно быть достаточно длинным.
Заключение
 Без решения фундаментальных проблем
дальнейшее использование высокопроизводительных
вычислительных систем для решения индустриальных
задач оказывается затруднительным.
 Налицо тесная связь программирования и
прикладной математики.
 Необходима подготовка специалистов высшей
квалификации, сочетающих глубокие знания в области
прикладной и теоретической математики,
программирования и математического моделирования.