close

Вход

Забыли?

вход по аккаунту

- Cisco Connect

код для вставкиСкачать
Пакетное ядро мобильного оператора:
ASR5k, поиск и устранение неисправностей
Владимир Суконкин
Подразделение фокусной технической поддержки сервиспровайдеров
GSP EMEAR FTS
[email protected]
24.11.2014
© 2014 Cisco and/or its affiliates. All rights reserved.
Содержание
• Общие идеи по траблшутингу
• Инструменты отладки (Logging / Debugging)
• Что собрать при открытии сервисного запроса
• Примеры
Идеи по траблшутингу
Идеи по траблшутингу
Локализация проблемы
 Абонент - Control plane
—
—
—
—
Attach failures
TAU, смена RAT, HO failures
Проблемы с установкой или модификацией dedicated bearers
Неуспешное согласование параметров QoS
 Абонент - User plane
— Bandwidth issues; проблема с применением согласованного QoS
— Packet drops
— Billing/Charging (CDRs, Gx, Gy) issues
 Интерфейс
— Congestion
— GTP Echo timeouts, Restart counter, …
— Connectivity to Diameter peer host
Идеи по траблшутингу
Локализация проблемы (продолжение)
 Какой сетевой элемент?
 Какой reference point?
— Сопоставить с рекомендованной 3GPP 23.401 процедурой
— Понять задачи и функционал каждого сетевого элемента
 Нарисовать схему call-flow (согласно отснятым трассировкам), сравнить с
ожидаемым call-flow
— Необходимо запастись трассировками во всех релевантных references-point
— По-возможности, выяснить состояние абонента(ов) перед началом проблемы
Идеи по траблшутингу
Опредилить pattern (шаблон)
 Кого проблема затрагивает, кого не затрагивает
—
—
—
—
—
—
—
—
Определенный eNodeB?
Определенный UE производитель/модель?
Географический регион?
APN?
Home subscribers / Roaming subscribers?
Time of day? (ЧНН?)
Определенные процедуры/сценарии (bearers, QoS, HO scenarios)
Специфично для архитектуры ASR5k: Particular PSCs? Sessmgrs? Linecards / NPU
paths?
 Когда проблема проявилась впервые?
— Day One / new config?
— Какие изменения?
— При расширении сети/увеличении нагрузки?
Идеи по траблшутингу
Выявить отличия
 Рабочий / не рабочий сценарии – с минимальными отличиями
 Получение «рабочего» трейса может быть так же полезно, как и получение
«нерабочего»
— Рассмотреть возможность воспроизведения рабочего сценария в лаборатории
Logging / debugging methods
Monitor Subscriber
Если доступен, то это лучший вариант
для получения (почти) полного
представления о активности абонента
– как для control, так и для user plane
Настройки по умолчанию практически
полностью подходят для анализа
control plane

Требуется включение дополнительных опций
для user plane
Cons / Ограничения:
Требует, что бы проблема была
воспроизводимой или ожидаемой (для
конкретного IMSI или других критериев)
“monitor subscriber next-call” может не
работать если сценарий звонка включает
несколько сессий – на combo box или по
дизайну (напр. dedicated bearers)
Может не захватить первые несколько
пакетов в случае PTMSI attach или HO
На combo box, пакет будет отображен в
трейсе несколько раз (например S5 SGW
egress и S5 PGW ingress)
При декодировании нескольких
протоколов из одного стэка (e.g. S1AP and
NAS on S1MME), пакеты будут
отображаться дважды.
•
•
•
•
Do’s
•
•
•
•
•
Использовать “multi-call trace” в соотв,
ситуациях.
Если возможно, указывать IMSI.
При использовании “next-call”,
ограничивать тип звонка (“monitor
subscriber type pgw next-call”)
Включать все релевантные протоколы
Для траблшутинга user plane (проблемы с
ECS etc.), использовать опцию “19” и “x”
(hexdump)
•
•
•
•
•
Higher->Lower протоколы на выход
Lower->Higher протоколы на вход
Нижележащий уровень может показывать
зашифрованный пакет
Показывает пакеты, а не события связанные с
обработкой в программном обеспечении.
Monitor Protocol
Может быть полезен, когда проблема
касается всего интерфейса (а не
определенных абонентов).
Cons / Ограничения
•
Может генерировать большой объем
вывода.
•
В зависимости от активности абонента
может оказаться полезен для
определенных control plane протоколов,
но не применим для user plane
•
Показывает пакеты, но не показывает
события, связанные с обработкой в
программном обеспечении.
Do’s
•
Добавлять протоколы по одному,
производя оценку объема
генерируемых сообщений и нагрузки на
систему.
•
Включать только те протоколы, которые
реально нужны.
•
Необходима крайняя осторожность при
использовании на оборудовании,
находящимся в коммерческой
эксплуатации
Active или Runtime Logging
Позволяет выборочно включать вывод
логов по 250 компонентам



Можно изменять уровень verbosity от 1
(critical) до 7 (debug)
Default уровень 2 (error) для всех
компонент
Каждый компонент имеет свой диапазон
event IDs; каждый ID это уникальный тип
ошибки с определенным severity и
форматом соощения.
Два типа:
•
—
—
—
•
—
—
Active logging
Включается для конкретной CLI (SSH session)
Включается в режиме Exec CLI
Вывод направляется непосредственно в CLI сессию
Cons / Ограничения
•
Do’s
•
•
•
•
•
Runtime logging
Включается в режиме конфигурации
Вывод отправляется на сислог сервер и так же
отображется в “show logs”
Возможно, единственная опция для
анализа событий, связаннных с
работой программного обеспечения (в
отличии от сбора и отображения
input/output пакетов)
Может сгенерировать большое количество
вывода
•
•
•
Всегда, всегда иметь действующий сислог
сервер
Знать, какой компонент вам нужен
Часто, так же необходимо включать и
“sessmgr”
Будьте осторожны с verbosity выше чем
“unusual”
Возможно “logging filter active facility all level
debug”… только в лаборатории!
Настройте уровень логирования “critical” для
компонент, которые вы не хотите видеть
Отключите логирование для определенных
event IDs или диапазона event IDs, которые
вы не хотите видеть
Используйте “show logging” , что бы увидеть
что именно сейчас включено
Logging Monitor”
Включается в режиме конфигурации
local context configuration отдельно
для абонента
Позволяет запись событий и
сообщений по конкретному абоненту
на сислог сервер

Комбинация “monitor subscriber”, и “logging
filter runtime …” для конкретного абонента:
[local]sim-lte#
grep logging
logging display
logging display
logging display
logging monitor
[local]sim-lte#
show configuration |
event-verbosity full
pdu-verbosity 5
pdu-data hex-ascii
msid 123456001000000
Cons / Ограничения
•
Может генерировать большое количетсво
вывода, если включен для user-plane
•
Теже ограничения, что и для “monitor
subscriber” в части идентификации абонента
(e.g. PTIMSI attach и HO)
Do’s
•
Рекомендуем использовать данную опцию –
она почему-то используется редко
•
Включать для user-plane только при острой
необходимости
•
Убедиться, что сислог сервер доступен и
функционирует
Stats/Counters
Общепринятое назначение:
Счетчики отображают текущий статус (напр.
кол-во attached абонентов )
 Статистика показывает исторические
данные (напр. кол-во Attach request,
полученных с момента загрузки устройства
или c момента обнуления счетчиков )

Доступна большинства протоколов…



show egtpc statistics
show mme-service statistics
…
… а так же внутренняя
статистика/счетчики для
программного обеспечения:




show session disconnect-reasons
show session progress
show apn statistics
…
Many stats are available as bulkstats and
can help getting the big picture over time
Много статистики доступно в формате
bulkstat и может помочь получить
более глобальную картину во времени
Do’s


Собирайте последовательно несколько
выводов для того, что получить приращение
счетчиков
Собирайте команды с временными метками
— Это позволит произвести корреляцию между
несколькими выводами одной и той же команды, или
между выводами команды и пакетной трассой
“Show subscriber” …
Показывает текущее состояние
абонента с точки зрения ASR5k
Может требоваться как однократный
вывод, так и несколько
последовательных
Полезные команды:

show subscriber full

show subscriber mme-only/sgwonly/pgw-only full

show active-charging session full

show mme-service session full

show mme-service db record imsi
Do’s



Собирайте последовательно несколько
выводов, что бы получить приращения
счетчиков
Собирайте выводы с временными метками
Используйте ключевые опции “mme-only”/”sgwonly”/”pgw-only” для вывода “show subscriber”
— Они не только фильтруют лишний вывод, но и
добавляют дополнительную информацию,
специфичную для каждой опции

Иногда полезно использовать опцию “show
subscriber debug-info”
External traces
Требуются в случе если:



Когда есть сомнения в том, что ASR5k
«наблюдает» в сети
В случае, если пакеты приходят
поврежденными
Когда “monitor subscriber” не работает
(PTMSI etc.)
Некоторые заказчики имеют
постоянные захват трафика на всех
интерфейсах

Обычно для control-planе трафика
Может потребоваться захват
пакетных трасс на нескольких
интерфейсах одновременно
Do’s

Убедитесь, что время на ASR5k и
внешнем анализаторе (устройтсве для
захвата) засинхронизировано
Что необходимо подготовить для открытия
сервисного запроса в Cisco TAC
Подготовка к открытию SR
• Какие платформы, компоненты, версии ПО подвержены (или не
подвержены) сбою?
• Какие версии программного обеспечения используются?
• На каком участке сети произошла авария?
• Когда она была зафиксирована в первый раз?
• Происходит ли она периодически и если да, то как часто?
• Работала ли ранее применяемая конфигурация или это новая
инсталляция или изменение существующего дизайна?
• Какие изменения на сети происходили непосредственно до аварии
(в аппаратной или программной конфигурации, версиях ПО,
количестве трафика и т.п)?
• Если проблема является воспроизводимой, предоставьте,
пожалуйста, соответствующие инструкции по ее воспроизведению.
• Как сбой повлиял на сетевые сервисы и клиентов, имеют ли место
финансовые потери?
• Какие действия по диагностике и устранению аварийной ситуации
предпринимались до открытия сервисного запроса?
Описание проблемы
• Какие платформы, компоненты, версии ПО подвержены (или не
подвержены) сбою?
• Какие версии программного обеспечения используются?
• На каком участке сети произошла авария?
• Когда она была зафиксирована в первый раз?
• Происходит ли она периодически и если да, то как часто?
• Работала ли ранее применяемая конфигурация или это новая
инсталляция или изменение существующего дизайна?
• Какие изменения на сети происходили непосредственно до аварии
(в аппаратной или программной конфигурации, версиях ПО,
количестве трафика и т.п)?
• Если проблема является воспроизводимой, предоставьте,
пожалуйста, соответствующие инструкции по ее воспроизведению.
• Как сбой повлиял на сетевые сервисы и клиентов, имеют ли место
финансовые потери?
• Какие действия по диагностике и устранению аварийной ситуации
предпринимались до открытия сервисного запроса?
SSD
• Одним из основных и наиболее полезных источников
информации является вывод команды “show support details “:
show support details <to location and filename>
[file: ]{ /flash | /pcmcia1 | /hd }[ /directory]/file_name
tftp://{ host[ :port# ] }[ /directory ]/file_name
[ ftp: | sftp: ]//[ username[ :password ]@ ] { host }[ :port# ][
/directory ]/file_name
• Всегда собирайте “show support details” (SSD) до и после какихлибо изменений конфигурации и любых плановых
профилактических работ (Maintenance Window (MW)).
• При наблюдении проблемы соберите несколько файлов SSD в
различные интервалы времени, что бы дать возможность
инженерам поддержки и разработчикам сравнить показания
требуемых счетчиков на временном интервале.
• Так же необходимо приложить SSD, снятое на стабильно
работающей системе, до того, как появилась проблема.
Crash файл
•
Необходимо проверить наличие crash файла, в случае если он есть –
приложить его при открытии сервисного запроса. Проверить наличие
crash файла можно следующей командой:
[local]# sho crash list
Wednesday November 19 16:46:36 AST 2014
==
====
=======
#
Time
Process
==
1
====
=======
2014-Jul-22+05:25:53 sessmgr
========== =========== ================
Card/CPU/
SW
HW_SER_NUM
PID
VERSION
SMC / Crash Card
========== =========== ================
04/0/10474 15.0(55300) SAD1738018N/SAD170300J0
.........
36 2014-Nov-19+16:23:57 mmemgr
01/0/04683 16.3(57726) SAD1738018N/SAD170300GK
37 2014-Nov-19+16:24:26 sessmgr
05/0/09044 16.3(57726) SAD1738018N/SAD170400KP
38 2014-Nov-19+16:42:45 mmemgr
01/0/21301 16.3(57726) SAD1738018N/SAD170300GK
39 2014-Nov-19+16:45:27 mmemgr
01/0/05127 16.3(57726) SAD1738018N/SAD170300GK
Crash файл (продолжение)
• Можно посмотреть информацию по конкретному крэшу:
[local]# sho crash number 6
Thursday November 20 04:04:54 AST 2014
********************* CRASH #06 ***********************
SW Version
: 16.3(57726)
Similar Crash Count : 34
Time of First Crash : 2014-Nov-19+16:21:22
Fatal Signal 11: Segmentation fault
PC: [07ac136b/X] mmemgr_get_MMEENodeBAssoc()
Faulty address: 0xc
Signal from: kernel
Signal detail: address not mapped to object
Process: card=1 cpu=0 arch=X pid=21526 cpu=~23% argv0=mmemgr
Crash time: 2014-Nov-19+16:05:37 UTC
Recent errno: 11 Resource temporarily unavailable
Stack ([email protected], probably truncated):
[07ac136b/X] mmemgr_get_MMEENodeBAssoc() sp=0xfffb2048
[07ac247c/X] mmemgr_process_mme_enodeb_assoc() sp=0xfffb21f8
Case Study
Case Study: Diameter flaps
• Кратковременные провалы трафика и рост ошибок на Gx в короткие
интервалы времени
Case Study: Diameter flaps (продолжение)
[email protected]:27 duration 0.8sec
2014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.164] [snmp 22002 info] [1/0/4528 <diamproxy:1>
trap_api.c:690] [software internal system syslog] Internal trap notification 184 (DiameterPeerDown) context Ga_Gy_Gx
ipaddr 172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com
2014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.164] [diamproxy 119111 error] [1/0/4528 <diamproxy:1>
diamproxy.c:3550] [software internal system syslog] ALA-PCRF1: Connection closed at state OPEN DWR pending 0
2014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.967] [snmp 22002 info] [1/0/4528 <diamproxy:1>
trap_api.c:690] [software internal system syslog] Internal trap notification 185 (DiameterPeerUp) context Ga_Gy_Gx
ipaddr 172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com
2014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.967] [snmp 22002 info] [1/0/4528 <diamproxy:1>
trap_api.c:670] [software internal system syslog] Internal trap notification 1036
(DiameterCapabilitiesExchangeSuccess) context Ga_Gy_Gx ipaddr 172.13.15.15 end point name SHM-ASR5K-ALAPCRF1.xyz-cell.com
[email protected]:07 duration 0.7sec
2014-10-23T10:07:28+06:00 172.13.21.5 evlogd: [local-60sec28.142] [snmp 22002 info] [1/0/4528 <diamproxy:1>
trap_api.c:690] [software internal system syslog] Internal trap notification 184 (DiameterPeerDown) context Ga_Gy_Gx
ipaddr 172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com
2014-10-23T10:07:28+06:00 172.13.21.5 evlogd: [local-60sec28.142] [diamproxy 119111 error] [1/0/4528 <diamproxy:1>
diamproxy.c:3550] [software internal system syslog] ALA-PCRF1: Connection closed at state OPEN DWR pending 0
2014-10-23T10:07:28+06:00 172.13.21.5 evlogd: [local-60sec28.856] [snmp 22002 info] [1/0/4528 <diamproxy:1>
trap_api.c:690] [software internal system syslog] Internal trap notification 185 (DiameterPeerUp) context Ga_Gy_Gx
ipaddr 172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com
[email protected]:47 duration 0.9sec
….
Case Study: Diameter flaps (продолжение)
• Проблема наблюдается в моменты перераспределения большей
части трафика с одной LAG группы на другую
• Проблема не наблюдается на узле, где установлен PCRF
Предложения по дальнейшим действиям?
Ждем ваших сообщений с хештегом
#CiscoConnectRu
Спасибо за внимание!
Пожалуйста, используйте код для
оценки доклада
1143
Ваше мнение очень важно для нас
CiscoRu
24.11.2014
Cisco
© 2014 Cisco and/or its affiliates. All rights reserved.
CiscoRussia
1/--страниц
Пожаловаться на содержимое документа