Построение катастрофоустойчивых и распределённых ЦОД Решаемые задачи и элементы архитектуры Скороходов Александр Системный инженер-консультант [email protected] 25.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. Распределённые ЦОД Цели создания • • • • • • • Катастрофоустойчивость Непрерывность обработки Мобильность приложений Миграция систем Наращивание производительности/ёмкости Распределённые сервисы Географически-локализованные сервисы Катастрофоустойчивость Точка восстановления и время восстановления Последняя резервная копия или пригодные данные Момент катастрофы Системы восстановлены и работоспособны Время Меньше RPO/RTO Точка восстановления (Recovery point objective - RPO) • • • Больше $$$ Репликация «Горячий резерв» Время восстановления Больше RPO/RTO • Меньше $$$ • Резервирование на ленту • «Холодный резерв» «Нулевые» RPO/RTO – система непрерывной доступности Непрерывность бизнеса Географически распределённые отказоустойчивые кластеры Public LAN Cluster A Node 1 Private LAN VIP Cluster Heartbeat Cluster A Node 2 Развитие кластеризации для защиты от сбоя сайта целиком Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД Некоторые приложения поддерживают кластеризацию через L3 сеть Мобильность виртуальных сервисов Перемещение VM между ЦОД Cisco-VMware With EMC & NetApp Validated Design & Certification for Virtualized Workload Mobility Core Network DCI LAN extension DC 1 ESX-A source DC 2 ESX-B target Мобильность виртуальных сервисов между разнесёнными сайтами Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN Основа для управления облачной нагрузкой и её миграции между «облаками» Влияние расстояния Задержка (latency) Скорость света в вакууме ~300,000 км/с Скорость света в оптоволокне: ~200,000 км/с Задержка сигнала: ~5 мкс/км, RTT ~10 мкс/км Для сравнения: Среднее время доступа на (быстром) шпиндельном диске ~2-3 мс Среднее время доступа на SSD диске < 0.1 мс Максимальная задержка, допускаемая VMWare для vMotion: 5 мс RTT (10 мс начиная с vSphere 5.1) Распределённые ЦОД Классификация по расстоянию Гео Региональное (extended Metro) 200-400km Расстояние – ключевой фактор Ближе: Выше производительность Синхронная репликация Проще коммуникации Катастрофоусточивость Распределение сервисов Дальше: Компромисс! Резервный ЦОД Основной ЦОД Метро 50-80 km Катастрофоустойчивый ЦОД Кампус 1–2 km Распределённые ЦОД Технологические элементы Связь сетей передачи данных L2/L3 смежность Мониторинг(heartbit)/синхронизация в кластере Репликация по IP Подключение к транспортной сети Связь сетей хранения данных Доступ к удаленным СХД/лентам Репликация массивов по FC Оптимальный путь трафика Связь сетей хранения данных Влияние расстояния Варианты объединения Fibre Channel SAN Расстояние ЦОД IP Оптика Темное Волокно CWDM DWDM SONET/SDH FCIP Sync Кампус Метро Регион Страна Земля Ограничено оптикой и BB_Credit Sync (1,2,4Gbps) Sync (1,2,4,10Gbps per λ) Sync (1,2Gbps + subrate) Sync (Metro Eth) Ограничено оптикой и BB_Credit Ограничено BB_Credit Async Async (WAN,1/10Gbps) Влияние расстояния Задержка (latency) и Fibre Channel Traffic Flow BB_Credit Flow Control BB_Credit Flow Control BB_Credit Flow Control 2-8 BB_Credit 16-255 BB_Credit 2-8 BB_Credit FC Receive Buffers FC Receive Buffers Буферные кредиты (BB_Credit) согласовываются между каждой парой соединённых устройств в фабрике Один буфер под каждый FC фрейм независимо от размера фрейма FC фреймы буферизуются промежуточными коммутаторами Трафик на каждом соединении управляется получением фреймов Receiver Ready (R_RDY), передающая сторона может послать только определённое (BB_Credits) число фреймов прежде, чем приостановит передачу Влияние расстояния Задержка (latency) и Fibre Channel BB_Credits и расстояние 1 Gbps FC 2 Gbps FC 4 Gbps FC 8 Gbps FC ~2 km per Frame ~1 km per Frame ~½ km per Frame ~¼ km per Frame 16 Km • • • • BB_Credits нужны, чтобы «заполнить» соединение фреймами FC Полный (2112 байт) FC фрейм имеет «длину» примерно 2 км на 1 Gbps, 1 км на 2 Gbps,1/2 км на 4 Gbps, 1/4 км на 8 Gbps, 1/8 км на 16 Gbps Если BB_Credits не хватает для данного расстояния – снижается произодительность, соединение простаивает Число BB_Credits определяется оборудованием и его настройками FCoE для связи SAN между ЦОД? Да! C Nexus 7000/7000 и модулями F2E Поддерживаемые расстояния для FCoE транспорта: Nexus 5500: до 3 км Nexus 7000 До 80 км Nexus 7000 Storage VDC Storage VDC Storage VDC Storage VDC Nexus 5600: до 20 км Nexus 7000 с F2/F2E картами: до 80 км с DWDM SFP+ Использование отдельных соединений для LAN и SAN трафика FCIP: Fibre Channel over IP IP Network FC SAN FCIP Tunnel FC SAN FCIP: IETF стандарт для связи Fibre Channel SAN через IP (RFCs 3821 и 3643) Соединение «точка-точка» (туннель) между двумя FCIP устройствами Используется TCP – могут использоваться механизмы оптимизации (WAAS) Создаётся едингая FC фабрика (общий FSPF домен) Транспорт – IP сеть, в том числе и на большие расстояния Расширение SAN и Inter-VSAN Routing (IVR) Site 1 Local VSAN_5 Replication VSAN_10 Transit VSAN_20 (IVR) Сбой на «транзитной» VSAN_20 (оборудование или кабель) не нарушит трафик в VSAN_10 или VSAN_30 Работает с любым транспортом (FC, SONET/SDH, DWDM/CWDM, FCIP) Нужно, если данные VSAN используются для локальной обработки Site 2 Replication VSAN_30 VSAN_5 - Site 1 Host Fabric VSAN_10 - Site 1 Replication Fabric VSAN_20 - Inter-site SAN Extension Fabric VSAN_30 - Site 2 Replication Fabric Расширение SAN Синхронная и асинхронная репликация Синхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на обеих сторонах (zero RPO) «Метро»расстояния Асинхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на основном (локальном) диске, в то время как его коприрование на удалённый массив продолжается Неограниченные расстояния Synchronous Data Replication 1 4 1 Asynchronous Data Replication 1 1 2 1 2 1 3 1 1 1 3 Расширение SAN Синхронная репликация SCSI протокол (FC) требует два round trip на операцию Вносимая задержка операции 20μs/км, 100 км = 2 мс В зависимости от приложения синхронную репликацию, как правило ограничивают 50-100 км I/O Acceleration «убирает» один round-trip 50 км 1ms 250 μs : Rec_Ready ? 1 250 μs : Wait for response? 2 250 μs : Send data 1 Local Storage Array 250 μs : Wait for Ack? 2 Remote Storage Array Доступ к СХД и связь ЦОД Вариант 1 – разделяемая СХД Core Network L2 extension for vMotion Network DC 1 ESX-A source DC 2 Initiator ESX-B target Virtual Center Volumes Target Доступ к СХД и связь ЦОД Разделяемая СХД – использование Cisco IO Acceleration Core Network L2 extension for vMotion Network DC 1 DC 2 ESX-A source ESX-B target Virtual Center Повышение произодительности с использованием Write Acceleration на Cisco MDS Работа ускорения ввода/вывода Write Acceleration (WA) WA WA TA WRITE XFER_RDY DATA Tape Acceleration (TA) WRITE-1 XFER_RDY XFER_RDY DATA TA WRITE-1 XFER_RDY STATUS STATUS Reduction in I/O Latency ~equal to one round trip time (RTT) WRITE-2 XFER_RDY STATUS DATA WRITE-2 XFER_RDY STATUS WRT file mark Ускорение синхронной репликации и резервирования на ленту: аналогичнные подходы На работу с лентой дополнительно влияют особенности физического носителя и ограничения буферизации Write Acceleration имитирует только Transfer Ready, Tape Acceleration имитирует Command Status STATUS WRT file mark WRT fm sts WRT fm sts Доступ к СХД и связь ЦОД Вариант 2 - NetApp FlexCache (Active/Cache) Core Network L2 extension for vMotion Network DC 1 DC 2 ? Read Write 2 ESX-A source data 3 ACK Temp Cache data data Read Write 4 2 ESX-B target 1 data ACK Virtual Center FlexCache не работает как отложенный кеш записи FlexCache подтверждает операцию только после подтверждения от СХД http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html Доступ к СХД и связь ЦОД Вариант 3 - EMC VPLEX Metro (Active/Active) Хосты на обеих сторонах одновременно имеют доступ к распределённым виртуальным томам Непрерыная синхронизация Synchronous Latency Distributed Virtual Volume Fibre Channel Запись защищается на обоих сайтах ЦОД A Чтение – с кеша VPLEX или местного тома ЦОД B Доступ к СХД и связь ЦОД Вариант 3 - EMC VPLEX Metro (Active/Active) Core Network L2 extension for vMotion Network DC 1 DC 2 Initiator ESX-A source ESX-B target From the Host Virtual Center F Target From the Storage F EMC VMAX VPLEX Virtual Layer LUNv LUNv EMC CLARiiON Initiator Target VPLEX Engine Synchronous Latency requiments ~100 kms max VPLEX Engine http://www.cisco.com/en/US/docs/solutions/Enterprise/Data Center/DCI/4.0/ EMC/dciEmc.html Связь сетей передачи данных Влияние расстояния Передача данных Стандартные интерфейсы 10Гбит/с: 10GBASE-LR – до 10 км 10GBASE-ER – до 40 км 10GBASE-ZR – до 80 км Стандартные интерфейсы 40Гбит/с 40GBASE-LR4 – до 10 км Стандартные интерфейсы 100Гбит/с 100GBASE-LR4 – до 10 км 100GBASE-ER4 – до 40 км DWDM – до 1000+ км при использовании оптического усиления, не ограничено при использовании регенерации Через сеть (IP, MPLS…) - без ограничений Связь сетей ЦОД != растягивание VLAN ! Много задач, требующих растягивания подсетей: Отказоустойчивые кластеры Миграция виртуальных машин - но это не значит, что вы всегда обязаны растягивать VLAN: Кластеризация на L3 Растягивание подсетей без растягивания VLAN (LISP) Катастрофоустойчивые ЦОДы – связь на L2 снижает степень изоляции В любом случае, не забывайте про: Маршрутизацию между ЦОД Связь ЦОД с внешним миром – Интернетом или корпоративной магистралью Растягивание VLAN Варианты технологий Транспорт Ethernet MPLS IP Критерии применения VSS & vPC, FabricPath? Multi-Chassis EtherChannel для связи пары ЦОД FabricPath для связи многих сайтов – обсуждение далее По тёмной оптике или xWDM “Технологии LAN" EoMPLS & A-VPLS & H-VPLS Внедрение на PE Масштабирование и multi-tenancy Возможно поверх GRE Апробированный вариант, хорошо подходит SP OTV Внедрение на CE Подходит для корпоративных внедрений Малая зависимость от транспорта – требуется только IP сеть «Маршрутизация по MAC адресам» Оптимальный путь В чём именно проблема? 10.1.1.0/25 & 10.1.1.128/25 advertised into L3 DC A is the primary entry point 10.1.1.0/24 advertised into L3 Backup should main site go down Layer 3 Core Agg Agg Access Access Node A ESX Data Center 1 Virtual Machine VMware vCenter Virtual Machine ESX Data Center 2 Оптимальный путь Хотелось бы так... Layer 3 Core Agg Agg Access Access Node A Virtual Machine ESX Data Center 1 VMware vCenter ESX Data Center 2 Оптимизация пути трафика Исходящий трафик Локализация FHRP Входящий трафик GSLB — Выбор сайта с помощью DNS Route Health Injection (RHI) — Анонс /32 маршрутов на активные сервисы Locator/ID Separation Protocol – LISP-VM — Маршрутизация до сервиса Подробнее – в следующих сессиях Типы ЦОД и выбор подходов Распределённые ЦОД Кампус – до нескольких км • Типичный сценарий – несколько ЦОД в комплексе зданий или на территории предприятия • Катастрофоустойчивость: минимальна • Связь LAN: оптоволокно 10GBASE-LR/40GBASE-LR4/100GBASE-LR4 • Связь SAN: оптоволокно -LW • Оптимизация пути: не нужна • Рассмотривать как часть единого модульного ЦОД Распределённые ЦОД «Метро» – несколько десятков (до 60-100) км • Типичный сценарий – «резервный ЦОД» в пределах города или «метро-области» • Катастрофоустойчивость: частично • Связь LAN: оптоволокно 10GBASE-ER/ZR / DWDM, при необходимости - IP+OTV или MPLS/VPLS • Связь SAN: оптоволокно CWDM/DWDM, при необходимости - FCIP • Оптимизация пути: по возможности • При наличии возможности – использование «тёмного волокна» для LAN и SAN, синхронная репликация, технологии метрокластеров, Vmotion Распределённые ЦОД «Регион» – до несколько сот (300-400) км • Типичный сценарий – «резервный ЦОД» в другом городе в пределах региона • Катастрофоустойчивость: значительная • Связь LAN: IP+OTV или MPLS/VPLS, DWDM (при наличии) • Связь SAN: FCIP, DWDM (при наличии) • Оптимизация пути: желательна • Может использоваться для ряда «метрокластерных» технологий (Vmotion). Асинхронная репликация или синхронная с ограничениями и дополнительными инструментами Распределённые ЦОД «Гео» – многие сотни и тысячи км • Типичный сценарий – ЦОД на случай катастрофы (DR) в другом регионе страны • Катастрофоустойчивость: высокая • Связь LAN: IP+OTV или MPLS/VPLS - если требует технология кластера • Связь SAN: FCIP – если требует технология кластера • Оптимизация пути: необходима • Асинхронная репликация, «log shipping» или иные средства катастрофоустойчивости. Высокое время восстановления (часы и более). Непосредственная связь между ЦОД – только если требует технология геокластера Пример: собственные ЦОД Cisco Metro-Virtual DC (MVDC) Непрерывность обработки, катастрофоустойчивость и оптимальное использование “Operational Continuity” Единая пара ЦОД с локальной отказоустойчивостью DC1 (Texas) “Disaster Recovery (DR)” Катастрофоустойчивый удалённый ЦОД (RTP) DC2 (Texas) Метро-разнесение (в пределах 50 оптических миль) Георазнесение (> 200 миль) Размещение непродуктивных приложений Автоматическая смена функций при катастрофе с помощью сервисных профилей Cisco UCS http://www.cisco.com/web/about/ciscoitatwork/data_center/docs/Cisco_IT_Raleigh_Dual_Purpose_Data_Center_Case_Study.pdf Data Center Interconnect Дополнительная информация http://www.cisco.com/go/dci Ждем ваших сообщений с хештегом #CiscoConnectRu Спасибо Пожалуйста, используйте код для оценки доклада 4418 Ваше мнение очень важно для нас. Скороходов Александр Phone: +7(495)789-8615 E-mail: [email protected] CiscoRu 25.11.2014 Cisco © 2014 Cisco and/or its affiliates. All rights reserved. CiscoRussia
1/--страниц