close

Вход

Забыли?

вход по аккаунту

- Cisco Connect

код для вставкиСкачать
Построение катастрофоустойчивых и
распределённых ЦОД
Решаемые задачи и элементы архитектуры
Скороходов Александр
Системный инженер-консультант
[email protected]
25.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
Распределённые ЦОД
Цели создания
•
•
•
•
•
•
•
Катастрофоустойчивость
Непрерывность обработки
Мобильность приложений
Миграция систем
Наращивание производительности/ёмкости
Распределённые сервисы
Географически-локализованные сервисы
Катастрофоустойчивость
Точка восстановления и время восстановления
Последняя
резервная копия или
пригодные данные
Момент
катастрофы
Системы
восстановлены и
работоспособны
Время
Меньше RPO/RTO
Точка
восстановления
(Recovery point
objective - RPO)
•
•
•
Больше $$$
Репликация
«Горячий резерв»
Время
восстановления
Больше RPO/RTO
• Меньше $$$
• Резервирование на ленту
• «Холодный резерв»
«Нулевые» RPO/RTO – система непрерывной доступности
Непрерывность бизнеса
Географически распределённые отказоустойчивые кластеры
Public LAN
Cluster A
Node 1
Private LAN
VIP Cluster
Heartbeat
Cluster A
Node 2
 Развитие кластеризации для защиты от сбоя сайта целиком
 Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД
 Некоторые приложения поддерживают кластеризацию через L3 сеть
Мобильность виртуальных сервисов
Перемещение VM между ЦОД
Cisco-VMware With EMC
& NetApp Validated Design
& Certification for
Virtualized Workload
Mobility
Core Network
DCI LAN extension
DC 1
ESX-A source
DC 2
ESX-B target
 Мобильность виртуальных сервисов между разнесёнными сайтами
 Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN
 Основа для управления облачной нагрузкой и её миграции между «облаками»
Влияние расстояния
Задержка (latency)
Скорость света в вакууме ~300,000 км/с
Скорость света в оптоволокне: ~200,000 км/с
Задержка сигнала: ~5 мкс/км, RTT ~10 мкс/км
Для сравнения:
 Среднее время доступа на (быстром) шпиндельном диске ~2-3 мс
 Среднее время доступа на SSD диске < 0.1 мс
 Максимальная задержка, допускаемая VMWare для vMotion: 5 мс
RTT (10 мс начиная с vSphere 5.1)
Распределённые ЦОД
Классификация по расстоянию
Гео
Региональное
(extended
Metro)
200-400km
Расстояние – ключевой фактор
Ближе:



Выше производительность
Синхронная репликация
Проще коммуникации


Катастрофоусточивость
Распределение сервисов
Дальше:
Компромисс!
Резервный
ЦОД
Основной
ЦОД
Метро
50-80 km
Катастрофоустойчивый
ЦОД
Кампус
1–2 km
Распределённые ЦОД
Технологические элементы
Связь сетей передачи данных




L2/L3 смежность
Мониторинг(heartbit)/синхронизация в кластере
Репликация по IP
Подключение к транспортной сети
Связь сетей хранения данных
 Доступ к удаленным СХД/лентам
 Репликация массивов по FC
Оптимальный путь трафика
Связь сетей хранения данных
Влияние расстояния
Варианты объединения Fibre Channel SAN
Расстояние
ЦОД
IP
Оптика
Темное Волокно
CWDM
DWDM
SONET/SDH
FCIP
Sync
Кампус Метро Регион
Страна
Земля
Ограничено оптикой и BB_Credit
Sync (1,2,4Gbps)
Sync (1,2,4,10Gbps per λ)
Sync (1,2Gbps + subrate)
Sync (Metro Eth)
Ограничено оптикой и BB_Credit
Ограничено BB_Credit
Async
Async (WAN,1/10Gbps)
Влияние расстояния
Задержка (latency) и Fibre Channel
Traffic Flow
BB_Credit
Flow Control
BB_Credit
Flow Control
BB_Credit
Flow Control
2-8 BB_Credit
16-255 BB_Credit
2-8 BB_Credit
FC Receive
Buffers
FC Receive
Buffers
Буферные кредиты (BB_Credit) согласовываются между каждой парой соединённых
устройств в фабрике
Один буфер под каждый FC фрейм независимо от размера фрейма
FC фреймы буферизуются промежуточными коммутаторами
Трафик на каждом соединении управляется получением фреймов Receiver Ready
(R_RDY), передающая сторона может послать только определённое (BB_Credits) число
фреймов прежде, чем приостановит передачу
Влияние расстояния
Задержка (latency) и Fibre Channel
BB_Credits и расстояние
1 Gbps FC
2 Gbps FC
4 Gbps FC
8 Gbps FC
~2 km per Frame
~1 km per Frame
~½ km per Frame
~¼ km per Frame
16 Km
•
•
•
•
BB_Credits нужны, чтобы «заполнить» соединение фреймами FC
Полный (2112 байт) FC фрейм имеет «длину» примерно 2 км на 1 Gbps, 1 км на 2
Gbps,1/2 км на 4 Gbps, 1/4 км на 8 Gbps, 1/8 км на 16 Gbps
Если BB_Credits не хватает для данного расстояния – снижается произодительность,
соединение простаивает
Число BB_Credits определяется оборудованием и его настройками
FCoE для связи SAN между ЦОД?
Да! C Nexus 7000/7000 и модулями F2E
 Поддерживаемые расстояния для FCoE
транспорта:
 Nexus 5500: до 3 км
Nexus
7000
До 80 км
Nexus
7000
Storage
VDC
Storage
VDC
Storage
VDC
Storage
VDC
 Nexus 5600: до 20 км
 Nexus 7000 с F2/F2E картами: до 80
км с DWDM SFP+
 Использование отдельных
соединений для LAN и SAN трафика
FCIP: Fibre Channel over IP
IP Network
FC SAN
FCIP Tunnel
FC SAN
FCIP: IETF стандарт для связи Fibre Channel SAN через IP
(RFCs 3821 и 3643)
Соединение «точка-точка» (туннель) между двумя FCIP устройствами
Используется TCP – могут использоваться механизмы оптимизации (WAAS)
Создаётся едингая FC фабрика (общий FSPF домен)
Транспорт – IP сеть, в том числе и на большие расстояния
Расширение SAN и Inter-VSAN Routing (IVR)
Site 1
Local
VSAN_5
Replication
VSAN_10
Transit
VSAN_20
(IVR)
Сбой на «транзитной» VSAN_20
(оборудование или кабель) не нарушит
трафик в VSAN_10 или VSAN_30
Работает с любым транспортом (FC,
SONET/SDH, DWDM/CWDM, FCIP)
Нужно, если данные VSAN
используются для локальной обработки
Site 2
Replication
VSAN_30
VSAN_5 - Site 1 Host Fabric
VSAN_10 - Site 1 Replication Fabric
VSAN_20 - Inter-site SAN Extension Fabric
VSAN_30 - Site 2 Replication Fabric
Расширение SAN
Синхронная и асинхронная репликация
Синхронная репликация данных: Приложение получает подтверждение I/O после его
выполнения на обеих сторонах (zero RPO)
«Метро»расстояния

Асинхронная репликация данных: Приложение получает подтверждение I/O после его
выполнения на основном (локальном) диске, в то время как его коприрование на удалённый
массив продолжается
Неограниченные расстояния

Synchronous
Data Replication
1
4
1
Asynchronous
Data Replication
1
1
2
1
2
1
3
1
1
1
3
Расширение SAN
Синхронная репликация

SCSI протокол (FC) требует два round trip на операцию

Вносимая задержка операции 20μs/км, 100 км = 2 мс

В зависимости от приложения синхронную репликацию, как правило
ограничивают 50-100 км

I/O Acceleration «убирает» один round-trip
50 км
1ms
250 μs : Rec_Ready ?
1
250 μs : Wait for response?
2
250 μs : Send data
1
Local Storage Array
250 μs : Wait for Ack?
2
Remote Storage Array
Доступ к СХД и связь ЦОД
Вариант 1 – разделяемая СХД
Core Network
L2 extension for vMotion Network
DC 1
ESX-A source
DC 2
Initiator
ESX-B target
Virtual Center
Volumes
Target
Доступ к СХД и связь ЦОД
Разделяемая СХД – использование Cisco IO Acceleration
Core Network
L2 extension for vMotion Network
DC 1
DC 2
ESX-A source
ESX-B target
Virtual Center
Повышение произодительности с
использованием Write Acceleration на
Cisco MDS
Работа ускорения ввода/вывода
Write Acceleration (WA)
WA
WA
TA
WRITE
XFER_RDY
DATA
Tape Acceleration (TA)
WRITE-1
XFER_RDY
XFER_RDY
DATA
TA
WRITE-1
XFER_RDY
STATUS
STATUS
Reduction in I/O Latency ~equal to one round trip time
(RTT)
WRITE-2
XFER_RDY
STATUS
DATA
WRITE-2
XFER_RDY
STATUS
WRT file mark
Ускорение синхронной репликации и резервирования
на ленту: аналогичнные подходы
На работу с лентой дополнительно влияют
особенности физического носителя и ограничения
буферизации
Write Acceleration имитирует только Transfer Ready,
Tape Acceleration имитирует Command Status
STATUS
WRT file mark
WRT fm sts
WRT fm sts
Доступ к СХД и связь ЦОД
Вариант 2 - NetApp FlexCache (Active/Cache)
Core Network
L2 extension for vMotion Network
DC 1
DC 2
?
Read
Write
2
ESX-A source
data
3
ACK
Temp
Cache
data
data
Read
Write
4
2
ESX-B target
1
data
ACK
Virtual Center
 FlexCache не работает как отложенный
кеш записи
 FlexCache подтверждает операцию только после подтверждения от СХД
http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html
Доступ к СХД и связь ЦОД
Вариант 3 - EMC VPLEX Metro (Active/Active)
 Хосты на обеих сторонах
одновременно имеют доступ к
распределённым виртуальным
томам
 Непрерыная синхронизация
Synchronous Latency
Distributed Virtual Volume
Fibre Channel
 Запись защищается на обоих
сайтах
ЦОД A
 Чтение – с кеша VPLEX или
местного тома
ЦОД B
Доступ к СХД и связь ЦОД
Вариант 3 - EMC VPLEX Metro (Active/Active)
Core Network
L2 extension for vMotion Network
DC 1
DC 2
Initiator
ESX-A source
ESX-B target
From the Host
Virtual Center
F
Target
From the
Storage
F
EMC
VMAX
VPLEX Virtual Layer
LUNv
LUNv
EMC
CLARiiON
Initiator
Target
VPLEX
Engine
Synchronous Latency requiments ~100 kms max
VPLEX
Engine
http://www.cisco.com/en/US/docs/solutions/Enterprise/Data Center/DCI/4.0/ EMC/dciEmc.html
Связь сетей передачи данных
Влияние расстояния
Передача данных
Стандартные интерфейсы 10Гбит/с:
 10GBASE-LR – до 10 км
 10GBASE-ER – до 40 км
 10GBASE-ZR – до 80 км
Стандартные интерфейсы 40Гбит/с
 40GBASE-LR4 – до 10 км
Стандартные интерфейсы 100Гбит/с
 100GBASE-LR4 – до 10 км
 100GBASE-ER4 – до 40 км
DWDM – до 1000+ км при использовании оптического усиления, не
ограничено при использовании регенерации
Через сеть (IP, MPLS…) - без ограничений
Связь сетей ЦОД != растягивание VLAN !
Много задач, требующих растягивания подсетей:
 Отказоустойчивые кластеры
 Миграция виртуальных машин
- но это не значит, что вы всегда обязаны растягивать VLAN:
 Кластеризация на L3
 Растягивание подсетей без растягивания VLAN (LISP)
 Катастрофоустойчивые ЦОДы – связь на L2 снижает степень
изоляции
В любом случае, не забывайте про:
 Маршрутизацию между ЦОД
 Связь ЦОД с внешним миром – Интернетом или корпоративной
магистралью
Растягивание VLAN
Варианты технологий
Транспорт
Ethernet
MPLS
IP
Критерии применения
VSS & vPC, FabricPath?
 Multi-Chassis EtherChannel для связи пары ЦОД
 FabricPath для связи многих сайтов – обсуждение далее
 По тёмной оптике или xWDM
 “Технологии LAN"
 EoMPLS & A-VPLS & H-VPLS
 Внедрение на PE
 Масштабирование и multi-tenancy
 Возможно поверх GRE
 Апробированный вариант, хорошо подходит SP
 OTV
 Внедрение на CE
 Подходит для корпоративных внедрений
 Малая зависимость от транспорта – требуется только IP сеть
 «Маршрутизация по MAC адресам»
Оптимальный путь
В чём именно проблема?
10.1.1.0/25 & 10.1.1.128/25 advertised into L3
DC A is the primary entry point
10.1.1.0/24 advertised into L3
Backup should main site go down
Layer 3 Core
Agg
Agg
Access
Access
Node A
ESX
Data Center 1
Virtual Machine
VMware
vCenter
Virtual Machine
ESX
Data Center 2
Оптимальный путь
Хотелось бы так...
Layer 3 Core
Agg
Agg
Access
Access
Node A
Virtual Machine
ESX
Data Center 1
VMware
vCenter
ESX
Data Center 2
Оптимизация пути трафика
Исходящий трафик
Локализация FHRP
Входящий трафик
GSLB
— Выбор сайта с помощью DNS
Route Health Injection (RHI)
— Анонс /32 маршрутов на активные сервисы
Locator/ID Separation Protocol – LISP-VM
— Маршрутизация до сервиса
Подробнее – в следующих сессиях
Типы ЦОД и выбор подходов
Распределённые ЦОД
Кампус – до нескольких км
• Типичный сценарий – несколько ЦОД в комплексе зданий или на
территории предприятия
• Катастрофоустойчивость: минимальна
• Связь LAN: оптоволокно 10GBASE-LR/40GBASE-LR4/100GBASE-LR4
• Связь SAN: оптоволокно -LW
• Оптимизация пути: не нужна
• Рассмотривать как часть единого модульного ЦОД
Распределённые ЦОД
«Метро» – несколько десятков (до 60-100) км
• Типичный сценарий – «резервный ЦОД» в пределах города или
«метро-области»
• Катастрофоустойчивость: частично
• Связь LAN: оптоволокно 10GBASE-ER/ZR / DWDM, при необходимости
- IP+OTV или MPLS/VPLS
• Связь SAN: оптоволокно CWDM/DWDM, при необходимости - FCIP
• Оптимизация пути: по возможности
• При наличии возможности – использование «тёмного волокна» для
LAN и SAN, синхронная репликация, технологии метрокластеров,
Vmotion
Распределённые ЦОД
«Регион» – до несколько сот (300-400) км
• Типичный сценарий – «резервный ЦОД» в другом городе в пределах
региона
• Катастрофоустойчивость: значительная
• Связь LAN: IP+OTV или MPLS/VPLS, DWDM (при наличии)
• Связь SAN: FCIP, DWDM (при наличии)
• Оптимизация пути: желательна
• Может использоваться для ряда «метрокластерных» технологий
(Vmotion). Асинхронная репликация или синхронная с ограничениями и
дополнительными инструментами
Распределённые ЦОД
«Гео» – многие сотни и тысячи км
• Типичный сценарий – ЦОД на случай катастрофы (DR) в другом регионе
страны
• Катастрофоустойчивость: высокая
• Связь LAN: IP+OTV или MPLS/VPLS - если требует технология кластера
• Связь SAN: FCIP – если требует технология кластера
• Оптимизация пути: необходима
• Асинхронная репликация, «log shipping» или иные средства
катастрофоустойчивости. Высокое время восстановления (часы и
более). Непосредственная связь между ЦОД – только если требует
технология геокластера
Пример: собственные ЦОД Cisco
Metro-Virtual DC (MVDC)
Непрерывность обработки, катастрофоустойчивость
и оптимальное использование
“Operational Continuity”
Единая пара ЦОД
с локальной отказоустойчивостью
DC1
(Texas)
“Disaster Recovery (DR)”
Катастрофоустойчивый
удалённый ЦОД (RTP)
DC2
(Texas)
Метро-разнесение
(в пределах 50 оптических миль)
Георазнесение (> 200 миль)
Размещение непродуктивных приложений
Автоматическая смена функций при катастрофе
с помощью сервисных профилей Cisco UCS
http://www.cisco.com/web/about/ciscoitatwork/data_center/docs/Cisco_IT_Raleigh_Dual_Purpose_Data_Center_Case_Study.pdf
Data Center Interconnect
Дополнительная информация
http://www.cisco.com/go/dci
Ждем ваших сообщений с хештегом
#CiscoConnectRu
Спасибо
Пожалуйста, используйте код для оценки доклада
4418
Ваше мнение очень важно для нас.
Скороходов Александр
Phone: +7(495)789-8615
E-mail: [email protected]
CiscoRu
25.11.2014
Cisco
© 2014 Cisco and/or its affiliates. All rights reserved.
CiscoRussia
1/--страниц
Пожаловаться на содержимое документа