close

Вход

Забыли?

вход по аккаунту

- Cisco Connect

код для вставкиСкачать
Систематизированный подход к поиску и
устранению неисправностей
Ильина-Сидорова Ирина
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
Систематизированный подход к поиску и
устранению неисправностей
•
•
•
•
•
•
•
•
Зачем это нужно?
Что влияет на выбор метода решения?
Почему TAC ведёт себя так?
Определение проблемы и триггера
Workaround, solution, root cause
Что делать, если норма неизвестна?
Небольшая игра
Вопросы
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
2
Зачем нам нужен какой-то специальный подход?
Какие варианты у нас есть?
 Опыт
 Случайный поиск
 Принцип пяти «почему»
 Анализ по Kepner-Tregoe
 Полная замена сбойной системы
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
3
Что влияет на выбор метода решения?
 Наши знания
 Срочность
 Важность
 Стоимость
 Природа проблемы
5 Whys и KTPA – ключ к успеху, особенно если применяются
опытным инженером
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
4
Почему TAC ведёт себя так?
• Все инженеры TAC проходят KT-тренинг
• Все инженеры TAC обязаны поддерживать определённый формат
записей
• Всегда существует вероятность передачи кейса другому инженеру
• При привлечении инженеров верхнего уровня или разработчиков,
выполнение требований KT-анализа обязательно
• Это действительно работает!
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
5
Фазы поиска и устранения неисправности
• Обнаружение
•
Изоляция проблемы
• Идентификация
•
•
Описание проблемы
Описание не-проблемы
• Решение
•
•
•
24.11.2014
Выработка теорий о возможных причинах
Проверка возможных причин
Окончательное решение
© 2014 Cisco and/or its affiliates. All rights reserved.
6
Изоляция проблемы
• Проблема – отклонение от нормы
• Выяснение полного и точного описания проблемы – первый шаг на пути
её решения
• Какое поведение системы является отклонением, а какое – следствием?
• Значения «по умолчанию» у каждого свои
• 5 Whys помогают выявить потенциальные отклонения и следствия
отклонений
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
7
Параметры описания проблемы
• Kepner-Tregoe Problem Analysis позволяет очертить рамки проявления
проблемы:




•
•
•
•
•
Что?
Где?
Когда?
Что ещё?
Присутствует/Отсутствует отклонение
Важная часть анализа – выявление паттерна
Зная паттерн, пробуем установить триггер
Любая дополнительная информация важна
Не пытаемся сразу предполагать причину!
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
8
Проверка возможных причин
В рамках мысленного эксперимента
С уточнением описания проблемы
Важный вопрос: где проблема могла бы проявиться, но НЕ проявляется?
Упор на выработку пути решения
Ресурсоёмкость проверки имеет значение
Последний этап проверки может совмещаться с применением
временного решения
• Не принимаем причину в качестве наиболее вероятной без проверки
•
•
•
•
•
•
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
9
Алгоритм анализа проблемы
Описываем проблему
Выделение симптомов
Уточнение, в чём именно проблема
Идентифицируем потенциальные причины
Знания
Опыт
Найденные различия
Найденные изменения
Проверка возможных причин
Мысленный эксперимент
Выделение наиболее вероятной причины
Подтверждение истинной причины
Проверка предположений
Наблюдение
Попытка применения решения
Анализ решения
Анализ внесённых изменений
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
Анализ первопричин
10
Workaround, Solution, Root Cause
• В качестве результата могут выступать:
 временное решение - workaround
 устранение отклонения - solution
 анализ первопричины проблемы – root cause analysis
• Любая теория требует проверки
• Решение должно быть применимо в реальной ситуации
• Решение не должно привносить новые нежелательные отклонения
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
11
Временное решение - Workaround
• Не устраняет отклонение, однако минимизирует возможность его
негативного влияния
• Далеко не всегда затрагивает первопричину проблемы
• Может быть окончательным
• Может ухудшать решение, однако положительный эффект от его
применения перевешивает
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
12
Решение - Solution
• Решение проблемы – устраняет нежелательное отклонение, либо делает
невозможным его негативное влияние
• Решением проблемы является восстановление работоспособности в
полном объёме
• Решение проблемы не всегда возможно
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
13
Первопричина проблемы - Root Cause
• Фактор, изменив который, мы решим проблему
• Не всегда может быть установлена
• Нахождение первопричины не обязательно для решения проблемы,
однако желательно в большинстве случаев
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
14
Что делать, если норма неизвестна?
•
•
•
•
Типичная ситуация для новых инсталляций
Необходимо чётко обозначить желаемый результат
Результат должен быть практически достижим
В случае зацикливания – переопределяем желаемый результат
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
15
Небольшая игра
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
16
Первичное описание проблемы
Два сервера взаимодействуют с использованием протокола https
Административный интерфейс серверов – командная строка (cli) и gui
Один из серверов доступен пользователям по https
Второй находится за межсетевым экраном
Пользователи получают данные со второго сервера, обработанные
первым сервером, заходя на первый сервер по https
• Сегодня пользователи не могут получить необходимые им данные
• К концу рабочего дня необходимо сформировать отчёты, используя
недостающие данные
•
•
•
•
•
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
17
Симптомы и доступная информация
Лог-файлы с обоих серверов
Описание административного доступа к обоим серверам
Описание попытки подключиться к обоим серверам по https
Описание поведения клиента
Конфигурация межсетевого экрана
Лог-файл с межсетевого экрана
Отдел безопасности запрещает любые незащищённые соединения к
серверам (весь персонал отдела на конференции до понедельника)
В компании используется внутренний CA для выпуска сертификатов для
защиты https-соединений, сертификаты доступны, выпуском управляет
отдел безопасности
Время на серверах синхронизируется посредством протокола NTP (и оно
известно)
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
18
…
24.11.2014
Server
Server
#1
#2
© 2014 Cisco and/or its affiliates. All rights reserved.
19
Решение
Проблема:
Что: сервер №2, НЕ сервер№1
Где: в подсистеме сертификатов, GUI access, HTTPS; НЕ cli
Когда: c 08.11.2014 постоянно; НЕ ранее
Что ещё: выписать новый сертификат невозможно до понедельника; проблему необходимо решить до
конца текущего дня.
Workaround:
Откатить время на сервере№2, используя CLI, до момента, когда старый сертификат окажется
действительным. Добиться успешной инициализации GUI.
Сгенерировать временный сертификат самостоятельно. Загрузить его на сервер№2.
Вернуть время к текущим значениям. Убедиться в успешной синхронизации по NTP.
Загрузить временный сертификат в trusted list сервера№1.
Удостовериться в успешной работе сервисов.
Решение:
Подать заявку на генерацию нового сертификата.
Получить новый сертификат, применить его на сервере №2.
Удалить временный сертификат с обоих серверов. Проверить успешную работу сервисов.
Первопричина:
Вовремя не обновлён сертификат на сервере №2 по причине отсутствия соответствующей внутренней
политики. Необходимо разработать внутренние нормативные документы.
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
20
Ждем ваших сообщений с хештегом
#CiscoConnectRu
Спасибо за внимание!
Пожалуйста, заполните анкеты
Используйте код для оценки доклада
4927
Ваше мнение очень важно для нас
CiscoRu
24.11.2014
Cisco
© 2014 Cisco and/or its affiliates. All rights reserved.
CiscoRussia
1/--страниц
Пожаловаться на содержимое документа