close

Вход

Забыли?

вход по аккаунту

Первенство россии по биатлону;pdf

код для вставкиСкачать
На правах рукописи
ХАБИБУЛЛИНА НАТАЛЬЯ АЙЗИКОВНА
РАЗРАБОТКА НОВЫХ МЕТОДОВ АНАЛИЗА КАЧЕСТВА
ВИДЕОКОДЕКОВ И ОПТИМИЗАЦИЯ СИСТЕМ СЖАТИЯ
ВИДЕОИНФОРМАЦИИ
Специальность 05.12.13 – системы, сети и устройства
телекоммуникаций (технические науки)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Долгопрудный – 2014
Работа выполнена на кафедре «Интеллектуальные информационные системы и
технологии» (базовое предприятие МФТИ – Федеральное государственное
автономное научное учреждение «Центр информационных технологий и систем
органов исполнительной власти» (ФГАНУ ЦИТиС и ИнтерЭВМ)).
Научный руководитель:
кандидат физико-математических наук
Браиловский Илья Владимирович
главный инженер компании Amazon
Официальные оппоненты:
доктор технических наук, ст. научный сотрудник
Балухто Алексей Николаевич
зам. ген. директора ООО НПЦ «Интелком»
кандидат физико-математических наук
Куликов Дмитрий Леонидович
доцент Университета «Дубна»
Ведущая организация:
Фрязинский филиал Федерального
государственного бюджетного учреждения науки
«Институт радиотехники и электроники им. В. А.
Котельникова» Российской академии наук
Защита состоится « 23 » сентября 2014 г. в 15:00 на заседании диссертационного
совета
Д 212.156.04
образовательном
при
учреждении
Федеральном
высшего
государственном
автономном
профессионального
образования
Московском физико-техническом институте (ГУ) по адресу: 141700, Московская
область, г. Долгопрудный, Институтский пер., 9, Радиотехнический корпус, зал
заседаний (ауд. 304).
С диссертацией можно ознакомиться в библиотеке Московского физикотехнического института (ГУ). Автореферат разослан «19» августа 2014 года.
Ученый секретарь
диссертационного совета Д. 212.156.04
кандидат физико-математических наук
2
Стрыгин Л.В.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы
Информация является одним из важнейших человеческих ресурсов. В
настоящий момент идет этап активного развития оптимальных методов передачи
динамических изображений, чему и посвящена настоящая работа.
В зависимости от системы формирования и передачи видеоинформации
каждый из способов хранения и передачи обладает своей спецификой и
накладывает ограничения на способ обработки видеопотока. Основные задачи,
которые ставятся при обработке видеоинформации, – это достижение заданного
размера и качества выходного файла за определенное время. Для каждой системы
обработки
видеоинформации
созданы
специализированные
видеокодеки.
Универсального видеокодека, одинаково хорошо кодирующего в любых условиях,
не существует, поскольку в каждой системе кодирования есть свои особенности.
Например, для передачи по беспроводной сети видеопоследовательность должна
быть как можно более компактной и равномерно распределенной во времени. За
счет низкой временной и пространственной сложности уровень качества
получаемого видеосигнала может быть средним или низким. Цифровое видео
повышенной четкости не имеет таких жестких ограничений по размеру, однако
передача
изображения
высокого
качества
требует
применения
специализированного, оптимизированного видеокодека.
Для достижения оптимального качества, скорости и размера необходимо
оптимизировать и варьировать параметры и алгоритмы в видеокодеке. Способы
передачи информации динамично развиваются, становятся быстрее и эффективнее,
таким образом, изменяются условия использования видеоинформации и, как
следствие, условия применимости видеокодеков. Поэтому характерной чертой
процесса развития видеокодеков являются динамичность и адаптивность. Для того
чтобы сконфигурировать видеокодек под реальные условия использования,
необходимо проанализировать и оценить эффективность работы совокупности
методов и алгоритмов в видеокодеке. Кроме того, анализ оптимальных условий
использования позволяет оценить стоимость реализации видеокодека в виде
практического решения, в котором, как правило, существуют как материальная
часть компьютера, так и программная часть. Это немаловажно, учитывая широкую
область
использования
видеоинформации.
Следует
заметить,
что
конкурентоспособность является определяющим фактором при разработке
видеокодека. Если определенные решения слишком дорогостоящи в эксплуатации
3
и реализации, то от них отказываются, и данное направление не развивается либо
развивается медленно. Подводя итог сказанного, можно заметить, что анализ
видеокодеков является многомерной оптимизационной задачей и неотъемлемой
частью процесса развития и использования методов хранения и передачи
видеоинформации.
Анализ видеокодеков не должен проводиться в идеальных условиях, так как
специфика использования видеоинформации накладывает ряд требований и
ограничений на способ хранения и передачи информации и, как следствие, на
способ кодирования. Поэтому первый этап анализа видеокодека – это определение
основных требований и ограничений по свойствам видеоинформации на входе и
выходе. Должны быть определены такие параметры, как допустимая задержка,
допустимый размер использования памяти, требуемое качество и степень сжатия и
т.д.
Для того чтобы подобрать оптимальные параметры работы видеокодека,
необходимо проанализировать его поведение «снаружи», то есть провести
внешний анализ видеокодека, основанный на оценке качества выходного
видеопотока. В этом заключается второй этап анализа. Определение качества
видеокодека – многомерная и во многом открытая задача. Самый эффективный и
главный показатель качества – это субъективное мнение экспертной группы,
просматривающей
сжатую
тестируемым
кодеком
видеопоследовательность.
Оценкой качества сжатой последовательности является усредненное мнение
группы
экспертов.
Существует
множество
методик
и
правил
показа
видеопоследовательностей для сбора субъективных оценок. Основной недостаток
этих методик состоит в том, что они весьма дорогостоящие и медленные, а также
сложно интерпретируемые. Альтернативой субъективных методик являются
объективные автоматизированные методы измерений качества видеопотока.
Объективные
методы
строятся
на
основании
математических
моделей,
приближающих результаты субъективной оценки качества и основанных на
критериях и метриках, которые могут быть измерены объективно. Однако даже
самые популярные методы объективной оценки качества, такие как PSNR и SSIM,
являются эталонными и в автоматическом режиме не могут полностью
соответствовать субъективной оценке. Поэтому важно продолжать разрабатывать
более совершенные методы объективной оценки. Настоящая работа посвящена
разработке нового универсального, неэталонного метода оценки качества работы
видеокодека.
4
На третьем этапе анализа необходимо изучить и проанализировать
эффективность
работы
внутреннего
устройства
видеокодека.
Это
можно
осуществить, включая и исключая отдельные методы и алгоритмы в видеокодеке и
проводя предварительную оценку качества работы видеокодека в автоматическом
режиме тестирования. Один из основных разделов настоящей диссертации нацелен
на разработку нового методологического подхода к внутреннему анализу
результатов
работы
видеокодеков
и
определению
ключевых
алгоритмов
кодирования, имеющих наибольшее влияние на качество закодированной
видеопоследовательности.
Завершающим этапом оценки оптимальности использования видеокодека
является
сравнение
выбранного
решения
с
другими
стандартными
и
нестандартными видеокодеками. Поэтому одна из глав данной работы посвящена
анализу эффективности использования нестандартного подхода к кодированию в
условиях передачи видеоинформации по сетям с переменной пропускной
способностью.
Цель
работы
–
разработка
новых
методов
анализа
видеокодирования,
позволяющих оптимизировать работу видеокодеков, специализирующихся на
передаче видеоинформации по сетям с переменной пропускной способностью.
Задачи исследования
1. Исследовать
зависимость
между
сложностью
исходной
видеопоследовательности и воспринимаемым уровнем качества закодированной
видеопоследовательности и разработать новый метод внешней объективной
оценки качества работы видеокодеков.
2. Сформулировать условия применимости нового метода внешней оценки
качества работы видеокодеков и оценить эффективность его работы по сравнению
с существующими методами.
3. Верифицировать предложенный метод при помощи субъективного
тестирования.
4.
Предложить
методы
анализа
основных
внутренних
алгоритмов
видеокодека на основе анализа результатов работы видеокодека.
5. Определить ключевые алгоритмы кодирования, имеющие наибольшее
влияние на качество закодированной видеопоследовательности.
6.
Выявить
зависимость
между
качеством
работы
нестандартного
видеокодека на основе вейвлет-преобразований с уровнем потерь данных в канале
связи и типом используемого вейвлет-преобразования.
5
7._Установить
набор
оптимальных
параметров
для
кодирования
видеопоследовательностей в условиях передачи видеоинформации по мобильным
сетям и сетям с переменной пропускной способностью.
Научная новизна
Разработана новая двумерная параметрическая оценка качества видеокодеков
без процесса кодирования, применимая к широкому классу видеокодеков. Эта
оценка верифицирована при помощи субъективного тестирования.
Определены ключевые алгоритмы при видеокодировании для целого класса
стандартных видеокодеков. Проанализированы эффективные методы внутреннего
анализа основных алгоритмов видеокодека. В частности, произведен детальный
анализ
влияния
алгоритма
идентификации
смены
сцены
на
качество
закодированного видео.
Разработаны рекомендации по представлению видеоинформации для целей
дальнейшей передачи по беспроводной сети. Проведен оригинальный анализ
работы видеокодека, основанного на вейвлет-преобразовании, в условиях передачи
видеопотока по нестабильному каналу связи.
Научно-практическая значимость работы
Новая двумерная параметрическая оценка качества видеокодеков без
процесса кодирования (EQM) может быть применена к широкому классу
видеокодеков. Автор диссертации считает, что предложенный метод обеспечивает
удачный
баланс
между
сложностью
вычислений
и
эффективностью
использования. При помощи полученной метрики могут быть улучшены
алгоритмы кодирования видео, такие как алгоритм контроля количества бит,
затрачиваемых на кодирование секунды видеопоследовательности (Rate Control),
алгоритм принятия решения о типе макроблока (Mode Decision) и другие.
Разработанная
метрика
видеопоследовательности
по
качества
сложности,
позволяет
что
классифицировать
существенно
помогает
структурировать тестирование видеокодеков. Посчитав EQM, можно заранее
классифицировать
исходные
видеопоследовательности,
выбрать
только
уникальные по сложности видеоряды (то есть убрать дублирующиеся по
сложности видеопоследовательности) и обеспечить полноту покрытия разных
диапазонов сложности (для хорошего покрытия необходимы как простые, так и
сложные видеопоследовательности). Субъективное тестирование показало, что
метрика EQM хорошо коррелирует с оценкой качества кодирования MOS.
6
На основе проведенного исследования внутреннего анализа видеокодеков
были выделены ключевые алгоритмы кодирования, оказывающие наибольшее
влияние на качество закодированной видеопоследовательности. Это такие
алгоритмы, как метод битрейт-контроля, алгоритм, определяющий смену сцены,
метод разделения на типы макроблоков, метод компенсации движения и другие.
Для повышения устойчивости представления информации при передаче по
проводным и беспроводным сетям было проанализировано шесть типов вейвлетпреобразований. Показано, что видеокодек на основе вейвлет-преобразования
Daubechies кодирует с наиболее стабильным и высоким показателем качества.
Выявлено, что сложность кодирования в условиях потерь существенно зависит от
интенсивности
движения,
поэтому
качество
кодирования
падает
на
последовательностях с более сложным движением.
Анализ сценариев потери данных указывает на то, что при потере больше
двух уровней коэффициентов квантования качество видеопотока становится
трудным для субъективного восприятия. Поэтому рекомендуется выделить
основные пакеты таким образом, чтобы как минимум три уровня коэффициентов
квантования
передавались
гарантированно.
Передача
четырех
уровней
увеличивает качество получаемого видеоряда, однако требует дополнительных
50% от размера передаваемого файла.
Положения, выносимые на защиту:
– новая двухпараметрическая метрика, применимая при проведении
внешнего анализа видеокодека;
– методологический подход к внутреннему анализу видеокодека;
– альтернативный метод представления видеоинформации для передачи по
проводным и беспроводным сетям.
Степень достоверности и апробация работы
Основные
положения
диссертационной
работы
докладывались
и
обсуждались на четырех международных научных конференциях: Международной
конференции по компьютерной графике и зрению «Графикон», МГУ (Россия,
Москва); Всероссийской молодежной научной школе «Прикладные математика и
физика: от фундаментальных исследований к инновациям», научной конференции
МФТИ «Проблемы фундаментальных и прикладных естественных и технических
наук в современном информационном обществе» (Россия, Долгопрудный) и
международном семинаре по видеообработке и параметрической оценке качества
изображения VPQM (США, Аризона, Скоттсдейл).
7
По теме диссертации опубликованы семь работ, в том числе две статьи в
рецензируемых журналах, рекомендованных ВАК РФ, две статьи в сборниках
трудов научных конференций на иностранном языке, трое тезисов докладов,
изданных в материалах конференций. Результаты исследований по неэталонной
оценке
качества
работы
видеокодеков
используются
в
лаборатории
по
компьютерной графике и зрению ВМиК МГУ.
Часть
исследований
нестандартного
подхода
к
видеокодированию
проводилась в рамках молодежного научно-инновационного конкурса «УМНИК».
Результаты исследования были отражены в научной работе, которая в 2012 году
была отмечена дипломом победителя Всероссийского молодежного конкурса
научных работ по современным проблемам фундаментальных и прикладных наук,
организованного Министерством образования и науки РФ.
Объем и структура диссертации
Диссертация изложена на 152 стр. машинописного текста и состоит из
введения, пяти глав, списка литературы и пяти приложений. Работа содержит 35
рисунков и 29 таблиц. Список литературы включает 100 источников, в том числе
10 на русском и 90 на английском языке.
Благодарности
Автор
выражает
глубокую
признательность
своему
научному
руководителю Илье Владимировичу Брайловскому и научному консультанту
Александру Ивановичу Галушкину за постоянную поддержку в проведении,
написании и оформлении научной работы. Их консультации и критические
замечания позволили автору не только существенно улучшить содержание и
структуру диссертации, но, что значительно важнее, почувствовать вкус к
научным исследованиям и ощутить свою причастность к развитию современных
информационных технологий. Автор благодарен всем, кто помог в выполнении
данной работы за критические замечания и ценные советы, которые помогли
сделать
работу
сильнее,
коллективу
кафедры
«Интеллектуальные
информационные системы и технологии» (ФГАНУ ЦИТиС), а также сотрудникам
и руководству компании ЗАО «Интел А/О» за предоставленную мне возможность
выполнить эту работу; лаборатории по компьютерной графике и зрению ВМиК
МГУ за интерес и поддержку моих исследований; Министерству образования и
науки РФ за финансовую поддержку (гос. контракт №9990р/16760 от 01.02.2012).
8
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
ГЛАВА 1. ОСНОВНЫЕ МЕТОДЫ И ОПРЕДЕЛЕНИЯ
В главе содержится анализ современных методов кодирования динамических
видеоизображений, субъективных и объективных методов оценки качества работы
видеокодеков, статистических методов анализа данных применительно к задаче
обработки
данных
видеоизображений.
Классифицируя
основные
методы
кодирования цифровых изображений, можно выделить шесть направлений:
импульсно-кодовая модуляция, кодирование с предсказанием, кодирование с
преобразованием, кодирование с интерполяцией и экстраполяцией, статистическое
кодирование и другие методы кодирования.
Динамические изображения могут быть представлены в аналоговой или
цифровой форме. Цифровое представление получило более широкое развитие, так
как в отличие от аналогового обладает большим удобством с точки зрения
хранения, передачи и поиска информации, а также позволяет передавать несколько
видеопотоков в одном стандартном радиоканале. Можно выделить четыре
основных способа передачи и хранения цифровых динамических изображений и
видеосигналов: это цифровое видео, хранящееся на Blu-ray, DVD, flash памяти и на
жестких дисках. В системах видеотелефонии, конференцсвязи или видео,
воспроизводимого по запросу, передача информации может быть осуществлена
через проводные и беспроводные сети. Кроме того, видеосигнал может быть
доставлен с использованием спутникового вещания в режиме трансляции
реального времени.
Видео высокой четкости в силу своей специфики обладает существенной
избыточностью и, как следствие, большим размером, поэтому его передача без
специальной обработки малоэффективна. Разрешение видео высокой четкости
варьирует от 1280 × 720 до 7680 × 4320 и более пикселей на кадр с частотой от 24
кадров в секунду. Как правило, такое видео хранят на жестких дисках или Blu Ray
дисках.
Однако
высокоскоростным
в
настоящее
каналам
время
связи
по
передают
проводной
видео
сети
высокой
или
другим
четкости
с
разрешением 1280 × 720 или 1920 × 1080 пикселей на кадр. Процесс сжатия видео,
хранящегося на дисках, может производиться задолго до просмотра или передачи,
поэтому он может осуществляться в несколько проходов для достижения высокого
качества.
9
В случае передачи видео в режиме трансляции реального времени
используется режим передачи стадартой четкости с разрешением 720 × 576 и
частотой передачи 25-30 кадров в секунду. Такое видео передается по сети, в том
числе беспроводной, часто с использованием спутниковой связи. Заметим, что в
режиме трансляции реального времени видео должно кодироваться с очень
небольшой задержкой.
В системах домашнего видео или видео, воспроизводимого по запросу,
снижены требования к пространственному разрешению, а область использования
часто ограничена размером экрана устройства, на котором просматривается видео
и на который будет подаваться видеосигнал заданного фиксированного качества.
Для передачи видео по беспроводной сети наиболее характерно разрешение от 352
× 288 до 720 × 576 (иногда вплоть до 1920 × 1080) с частотой передачи 25-30
кадров в секунду.
Отличительными особенностями видеоконференцсвязи и видеотелефонии
являются сниженные требования к пространственной и временной сложности,
однако предъявляются высокие требования к скорости кодирования видеосигнала,
например требуется поддерживать разрешение от 176 × 144 до 1280 × 720 при 5-30
кадрах в секунду. Тем не менее, кодирование и декодирование видеопотока
должно происходить без ощутимых задержек
Наиболее простой алгоритм кодирования изображений – это импульснокодовая модуляция, основанная на квантовании значений уровней пикселей.
Дальнейшее
преобразование
в
цифровой
код
может
производиться
как
неадаптивным, так и адаптивным методом, то есть кодирование может
производиться кодом с заранее заданным числом бит или с кодом переменной
длины.
Популярным методом кодирования информации является кодирование с
преобразованием. Оно также бывает как адаптивным, так и неадаптивным и может
использовать
различные
методы
преобразования,
такие
как
дискретное
преобразование Фурье, преобразование Карунена – Лоэва, дискретно косинусное
преобразование, преобразование Хаара, Уолша – Адамара. При квантовании с
интерполяцией и экстраполяцией используют методы адаптивной интерполяции и
экстраполяции, пространственной и временной субдискретизации.
Статистическое кодирование используют для сжатия без потерь, поэтому
закодированные изображения могут обладать статистической и визуальной
10
избыточностью.
Статистическое
кодирование
может
быть
адаптивным
и
неадаптивным. Используемые в данном методе алгоритмы – это алгоритм
Шеннона – Фано, Хаффмана, арифметическое кодирование, блочное и условное,
словарное, статистическое и контекстное. К классу остальных методов относят
метод
векторного
квантования,
метод
выделения
контуров,
выделение
последовательности одинаковых символов, битовую плоскость, фрактальное
кодирование и кодирование с использованием вейвлет-преобразований.
Большинство кодеков для звуковых и визуальных данных используют сжатие
с потерями, чтобы получать приемлемый размер сжатого файла. Кроме того,
существуют кодеки, сжимающие данные без потерь (англ. lossless codecs). Но для
большинства применений используют видеокодеки с потерями информации, так
как малозаметное ухудшение качества оправдывается значительным уменьшением
объема
данных.
Исключением
является
ситуация,
когда
данные
будут
подвергаться дальнейшей обработке. В этом случае повторяющиеся потери при
кодировании/декодировании окажут серьезное влияние на качество.
В основе алгоритма сжатия заложены особенности восприятия изображения
человеком. Например, зритель намного лучше воспринимает градации яркости,
чем цветности; градации одних цветов воспринимаются лучше, других – хуже. Это
происходит вследствие того, что визуальная информация, получаемая глазом,
фильтруется, сжимается с устранением избыточности и только часть данных
воспринимается зрителем. Задача эффективной обработки большого количества
информации решается за счет большого количества рецепторных клеток в
сетчатке.
В первой главе проведен подробный анализ алгоритмов цифрового
преобразования статистических и динамических изображений, использования
современных методов их кодирования. Основное внимание уделено исследованиях
объективной и субъективной оценки качества видеокодирования в зависимости от
эффективности используемых алгоритмов, различных вариантов сложности
изображений.
11
ГЛАВА 2. МЕТОД ВНЕШНЕГО АНАЛИЗА ЭФФЕКТИВНОСТИ РАБОТЫ
КОДЕКА ПУТЕМ МОДЕЛИРОВАНИЯ КАЧЕСТВА
ВИДЕОКОДИРОВАНИЯ
Для подбора оптимальных параметров работы видеокодека была поставлена
задача выявления зависимости между воспринимаемым уровнем качества
закодированной
видеопоследовательности
и
сложностью
исходной
видеопоследовательности. Эта задача была решена путем составления и оценки
регрессионной модели, характеризующей взаимосвязь между качеством работы
видеокодека и сложностью исходной видеопоследовательности. В результате этого
был предложен новый универсальный объективный метод оценки качества
видеокодеков. Для верификации результатов построенной модели с субъективным
восприятием качества работы видеокодека было проведено субъективное
тестирование. Для построения модели EQM (Estimated Quality Metric) была
выбрана метрика SSIM, потому что она лучше коррелирует с результатами
визуального сравнения, чем метрика PSNR.
Для того чтобы оценить сложность входной видеопоследовательности, была
использована суперпозиция метрик оценки сложности. Общий вид полученной
метрики качества кодирования видео (EQM) следующий:
1
(1)
 =
,
1 − (, )
1
(2)
 =  +  ∗
,
1 − (, )
где (, ) – это эмпирически подобранная суперпозиция метрик,
описывающих сложность исходной последовательности, A и B – уникальные
коэффициенты для каждого рассмотренного видеокодека (Таблица 1).
Таблица 1 – Коэффициенты A и B рассмотренных видеокодеков в формуле 1
Кодеки
Постоянная A
Коэффициент B
IPP264
4,202
1,184
X264
1,034
1,275
IPP264_Low
5,291
0,829
MPEG4
6,5
0,831
MPEG2
2,075
0,537
VC1
-0,480
1,076
Переменная  – это исходный видеоряд. Общий вид функции (, )
следующий:
12
1
= K ∗ E ∗ (a + b + c + d + g),
1 − (, e)
(3)
a = [c(1) ∗ 10⁵] ∗ e[−MeanValue_Y(x)/14],
(4)
b = [c(2)/10³] ∗ SI(x)3 ,
(5)
d = [c(4)/10] ∗ e[StdDev_Y(x)/10],
(7)
S
c = c(3) ∗ �Blur(x),
(6)
g = [c(5)/10³] ∗ S ∗ Lg(TI_me_Y(x)),
(8)
K = lg N,
c – оценки коэффициентов, их величины приведены в таблице 2
Таблица 2 – Оценки коэффициентов формулы 3
Значения коэффициентов
В
результате
c(1)
1,339
c(2)
2,275
c(3)
7,356
c(4)
-2,645
c(5)
-4,900
проделанной
работы
была
предложена
двумерная
параметрическая оценка качества EQM видеокодеков без процесса кодирования.
Полученные результаты могут быть применены к широкому классу видеокодеков.
При помощи этой метрики могут быть улучшены алгоритмы кодирования видео,
такие как Rate Control, Mode Decision и другие. Аналоги EQM модели,
применимые в таком широком диапазоне битрейта и целевых моделей
использования, автору не известны.
Метрика EQM лучше всего работает на кодеках AVC, в то время как
точность приближения при работе с кодеком MPEG2 была несколько ниже.
Следует отметить, что в обоих случаях приближение было достаточно точным и
0,71
0,69
0,72
0,69
0,67
13
0,69
0,71
H.264
H.264_
High_quality
VC1_
High_quality
MPEG2_def
ault
MPEG4_
High_quality
Таблица 3 – Значение величины R². Формула 2
X264_
High_quality
IPP264_Fast
IPP264_Hig
h_quality
позволило судить о качестве работы видеокодеков (таблица 3).
0,67
Для быстрой оценки параметров новой конфигурации видеокодека можно
использовать линейную интерполяцию параметров A и B (таблица 1). Для более
точной оценки желательно знать, какие алгоритмы качества включены в
видеокодек, например, наличие или отсутствие B кадров, Multi Reference и т.д.
Следует отметить тот факт, что с ростом битрейта вклад оценки движения в
общее качество уменьшается. Это объясняется тем, что количество ненулевых
коэффициентов на высоких битрейтах выше, а качество изображения в большей
степени определяется тем, насколько хорошо видеокодек может сохранить
оригинальные значения, минимально искажая их при квантовании или при оценке
движения. Предполагается, что предложенный метод обеспечивает удачный
баланс между сложностью вычислений и эффективностью использования.
Добавление дополнительных регрессоров увеличивает вычислительную сложность
и требует дополнительного анализа для увеличения точности. Удаление
параметров, напротив, приводит к существенному снижению качества оценки.
Возможно, что функциональные зависимости, указанные в формулах 3–8, не
являются единственными или оптимальными. Однако для практической работы
данные формулы дают достаточно высокую точность оценки качества, чтобы
использовать полученные результаты для
кодирования потокового видео
(например, видеоконференций) или для видео высокого качества (видео для BluRay).
Также можно утверждать, что полученные метрики качества позволяют
классифицировать
видеопоследовательности
по
сложности,
что
помогает
структурировать тестирование видеокодеков. Можно заранее классифицировать
исходные последовательности, посчитав EQM, и выбрать только уникальные по
сложности видеоряды (убрать дублирующиеся по сложности последовательности),
а также обеспечить полноту покрытия разных диапазонов сложности (для
хорошего покрытия необходимы как простые последовательности, так и сложные).
При субъективном тестировании, в котором участвовало 30 экспертов разных
возрастов
и
профессий
(22
мужчин
и
8
женщин),
было
получено
среднеквадратичное отклонение от логистической функции для метрики SSIM
равное 1,24, а для метрики EQM – 1,14 (рис. 1).
14
Рисунок 1 – График разброса субъективных оценок (MOS) по сравнению с
моделями прогнозирования SSIM и EQM
Следовательно, предложенная в работе объективная метрика EQM имеет
более высокую корреляцию с субъективным восприятием качества кодирования
видео (MOS) и превосходит по этому показателю стандартную метрику SSIM,
относящуюся к числу лучших из известных на настоящий момент метрик.
15
ГЛАВА 3. МЕТОДЫ ВНУТРЕННЕГО АНАЛИЗА ЭФФЕКТИВНОСТИ
ИСПОЛЬЗОВАНИЯ ОСНОВНЫХ АЛГОРИТМОВ В ВИДЕОКОДЕКЕ
Внутренний анализ видеокодека нацелен на изучение эффективности работы
отдельных алгоритмов и устройств видеокодека. Его можно осуществить, включая
и исключая отдельные методы и алгоритмы в видеокодеке и проводя
предварительную оценку качества работы видеокодека в автоматическом режиме
тестирования.
Задача выявления ключевых алгоритмов, оказывающих наибольшее влияние
на качество преобразованной видеопоследовательности, была решена автором
следующим
образом:
выделены
ключевые
алгоритмы
в
видеокодеке;
проанализировано качество работы видеокодека четырьмя методами; на основе
полученных данных при варьировании параметров ключевых алгоритмов
построены регрессионные модели поведения видеокодека; и далее по величине Тстатистики определено, насколько значимый вклад каждый алгоритм вносит в
итоговую оценку качества работы видеокодека.
Из
ключевых
алгоритмов
видеокодека
следует
выделить
методы
компенсации движения (Motion Estimation), описанные в первой главе, алгоритм
принятия решения о типе блока/макроблока (Mode Decision), метод контроля
количества
бит,
затрачиваемых
на
кодирование
одной
секунды
видеопоследовательности (Rate Control), алгоритм смены сцены (Scene Change
Detection). Также предполагается, что на качество работы видеокодека влияет
количество кадров между кадрами типа Intra (размер GOP), минимальное
количество кадров типа Bi-predictive между кадрами типа Intra и Predicted, размеры
макроблоков (16 × 16, 8 × 8, 4 × 4) и другие характеристики потока. На основе
проведенного исследования были выявлены наиболее эффективные методы
внутреннего анализа ключевых алгоритмов видеокодека.
Анализ качества работы видеокодека методом «полная качественная оценка»
показал высокую корреляцию со всеми основными алгоритмами кодека и может
служить в качестве меры качества видеокодека в целом. Анализ качества работы
видеокодека
методом
удаления
произвольных
кадров
из
исходной
видеопоследовательности в наибольшей степени проверяет эффективность работы
метода битрейт-контроля и метода определения новой сцены. При использовании
данного анализатора в качестве инструмента внутреннего анализа перед началом
тестирования необходимо выравнивать параметры, отвечающие за величину GOP
16
структуры, и параметр, определяющий минимальное количество кадров типа Bipredictive между кадрами типа Intra и Predicted.
Для оценки алгоритмов компенсации движения можно использовать анализ
синтетических видеопоследовательностей с варьируемой скоростью перемещений
объектов. При этом необходимо использовать наиболее медленные модификации
видеопоследовательностей – предпочтительно в диапазоне сложности от 1 до 3. В
ином случае результаты буду нечеткими, так как в работу включится алгоритм
определения смены сцены. Помимо алгоритмов компенсации движения, данный
анализатор тестирует алгоритм разбиения на блоки (Subblock split). Это
происходит вследствие того, что алгоритм разбиения на блоки является
основополагающим для метода компенсации движения и оказывает существенное
влияние на качество преобразованной видеопоследовательности. Следует также
отметить, что перед началом тестирования необходимо выравнивать показатели
комбинаций различных оптимизаций включенных в видеокодек.
Анализ качества работы видеокодека методом добавления шумных кадров в
видеопоследовательность может быть эффективно использован как показатель
качества работы алгоритма, определяющего смену сцены (SCD), и метода битрейтконтроля (RC method). В данном случае рекомендуется выравнивать параметры
метода разбиения на типы макроблоков (Subblock split) и параметры алгоритма,
отражающего комбинацию различных оптимизаций (Optimization) включенных в
видеокодек.
Подводя итог, можно сказать, что ключевыми алгоритмами кодирования,
оказывающими
наибольшее
влияние
на
качество
закодированной
видеопоследовательности, являются: (1) метод битрейт-контроля (RC method); (2)
количество оптимизаций, использованных в видеокодеке (Optimization); (3)
алгоритм определяющий смену сцены (SCD); (4) метод разделения на типы
макроблоков (Subblock split) и (5) метод компенсации движения (ME method).
17
ГЛАВА 4. АНАЛИЗ И ОПТИМИЗАЦИЯ РАБОТЫ НЕСТАНДАРТНОГО
ВИДЕОКОДЕКА В УСЛОВИЯХ ПЕРЕДАЧИ ВИДЕОПОТОКА ПО
НЕСТАБИЛЬНЫМ КАНАЛАМ СВЯЗИ
В этой главе описаны результаты анализа оптимизации работы видеокодека,
основанного на вейвлет-преобразовании в условиях передачи видеопотока по
нестабильному каналу связи, и предложены рекомендации по представлению
видеоинформации для целей дальнейшей передачи по беспроводной сети.
Задача передачи видеопотока по цифровым каналам связи представляет
большой
теоретической
и
прикладной
интерес.
Такой
способ
передачи
информации имеет ряд особенностей, в частности непостоянную в общем случае
пропускную способность канала связи. В настоящее время предложено большое
количество способов повышения устойчивости кодирования и восстановления
данных при наличии ошибок на основе дискретного косинусного преобразования.
Недостатком этого подхода является слабая защищенность данных от потерь.
Ошибка в одном бите может быть критической с точки зрения восстановления
изображения для части или для целого кадра, поскольку часто используемое
энтропийное кодирование и бинарное арифметическое кодирование очень
чувствительны к ошибкам. В случае, когда вместо арифметического кодирования
используется более устойчивое кодирование переменной длины, данные разной
значимости перемешаны в потоке. В стандартных видеокодеках, таких как AVC,
SVC, HEVC, вектора движения чередуются с данными, относящимися к текущему
блоку. Потеря бит, относящихся к векторам движения, влечет за собой потерю
большого
объема
визуальной
информации.
Кроме
того,
в
стандартных
видеокодеках отсутствует непрерывная масштабируемость по качеству/битрейту.
Это означает, что в одном потоке данных может содержаться только
фиксированное количество уровней качества разных битрейтов. В таких кодеках,
как SVC, редко создается больше чем 6 уровней качества. Поэтому в случае потерь
в канале связи старшие уровни SVC теряются, что приводит к резким скачкам
качества изображения.
В результате исследования была решена задача выявления и анализа качества
видеокодека, основанного на вейвлет-преобразованиях в условиях потерь пакетов
в канале связи. На основе этого анализа был выработан ряд рекомендаций по
использованию видеокодека при потоковой передаче видеоряда. В частности,
предлагается
выделить
наиболее
низкочастотные вейвлет-коэффициенты.
18
приоритетные
пакеты,
содержащие
Сравнение шести типов вейвлет-преобразований показало, что видеокодек,
работающий на основе вейвлет-преобразования Daubechies, продемонстрировал
лучшие
результаты.
Следует
отметить,
что
остальные
преобразования
незначительно уступали ему по качеству. Единственным исключением были
вейвлет-преобразования на базе Haar, которые имели существенно более низкие
показатели.
Кроме того, в работе были рассмотрены пять тестовых последовательностей
на пяти битрейтах. Сложность кодирования в условиях потерь существенно
зависит от интенсивности движения, поэтому качество кодирования падает на
последовательностях с более сложным движением. Следует отметить, что качество
на 0,8 Мбит/c часто не сильно уступает качеству на 1 Мбит/c, однако, как правило,
заметно превосходит 0,6 Мбит/c. В связи с этим при кодировании видеокодеком на
основе вейвлет-преобразований для потоковой передачи видеоряда использование
битрейта 0,8 Мбит/c представляется оптимальным.
Анализ сценариев потерь указывает на то, что при потере более двух уровней
коэффициентов качество видеопотока становится трудным для субъективного
восприятия (рис. 2). Поэтому рекомендуется выделять основные пакеты таким
образом, чтобы как минимум три уровня передавались гарантированно. Передача
четырех уровней увеличивает качество получаемого видеоряда, однако требует
50% увеличения размера передаваемого файла.
а) 100% сохраненных данных
б) 9,32% сохраненных данных
Рисунок 2 – Последовательность Bus, кадр №70, вейвлет-преобразование
Deslauriers Dubuc 13_7, битрейт 800 бит/сек.
В рамках исследования было решено поставить эксперимент по оценке
качества работы видеокодека на основе вейвлет-преобразования с использованием
не ссылочной метрики EQM, предложенным во второй главе. Учитывая, что
непредвиденные потери данных происходят уже после процесса кодирования, для
19
чистоты эксперимента оценка качества работы видеокодека производилась с
полным сохранением данных. Коэффициенты A и B представлены в таблице 4.
Таблица 4 – Коэффициенты A и B для рассмотренного видеокодека. Формула 2
Кодек
Постоянная A
Коэффициент B
Schrodinger
-10,8
1,314
Значение коэффициента детерминации (R²) построенной модели EQM для
видеокодека на основе вейвлет-преобразования равно 0,87. Такой высокий
показатель объясненных данных доказывает, что модель EQM универсальна при
работе с любым типом видеокодека. Если рассмотреть аналогичные результаты
для других типов видеокодеков (таблица 3), то можно отметить, что количество
объясненных данных для видеокодека на основе вейвлет-преобразования выше,
чем для видеокодеков на основе дискретно косинусного преобразования.
Результаты дополнительного тестирования предложенной метрики EQM
позволяют утверждать, что не ссылочная метрика оценки качества EQM
применима к широкому классу видеокодеков, так как среднеквадратичное
отклонение равно 0,5%, то есть менее одного процента. Следовательно, EQM
применима к видеокодекам, основанным не только на дискретно косинусном
преобразовании, но и на вейвлет-преобразовании. Таким образом, была доказана
универсальность использования разработанной автором метрики EQM для
видеокодеков различных типов.
Интересно отметить, что коэффициент сжатия видеокодеком на основе
вейвлет-преобразования Schrodinger не уступает другим видеокодекам. Средний
коэффициент сжатия видеокодека на основе вейвлет-преобразования равен 13.
Предложенная в настоящей работе методика в дальнейшем может быть
использована для изучения более эффективных и современных методов сжатия
видеопоследовательностей, таких как 3D вейвлеты или улучшенные схемы
компенсации движения для вейвлетных кодеков.
Другим направлением развития может быть анализ альтернативных метрик
оценки качества видеоряда, таких как метрика на базе нейронных сетей,
узконаправленные
метрики,
такие
как
метрика
размытости
Blur
и
т.д.
Перспективно было бы также изучить зависимость между используемым вейвлетпреобразованием и типом видеоконтента.
20
ГЛАВА 5. ВЫВОДЫ
В результате подробного изучения широко используемых алгоритмов оценки
качества цифровой обработки статических и динамических изображений и
проведенных
исследований,
видеокодирования,
разработаны
позволяющие
новые
эффективно
методы
анализа
оптимизировать
работу
видеокодеков. К основным результатам диссертационной работы представляется
возможным отнести нижеследующие.
1. Взаимосвязь между качеством работы видеокодека и сложностью исходной
видеопоследовательности подробно исследована путем построения и оценки
регрессионной модели. В результате этого был разработан новый объективной
неэталонный метод оценки видеокодеков EQM, позволяющий определять
зависимость
между
воспринимаемым
уровнем
качества
закодированной
видеопоследовательности и сложностью исходной видеопоследовательности. В
основе метода лежит двумерная параметрическая оценка качества видеокодеков
без процесса кодирования. Метод EQM применим к широкому классу
видеокодеков и может быть использован в однопроходной модели кодирования
видеопоследовательностей.
2. Новая метрика EQM позволяет повысить эффективность работы таких
алгоритмов кодирования видео, как Rate Control, Mode Decision и другие. Автору
не известны другие метрики, которые позволяли бы получать аналогичные
результаты и были бы применимы в таком широком диапазоне битрейта и целевых
моделей использования, как метрика EQM.
Метрика EQM продемонстрировала лучшие результаты при работе с кодеками
AVC и Schrodinger, в то время как на MPEG2 она показала несколько более низкую
точность приближения. Однако в обоих случаях приближение было достаточно
точным для практического применения и позволяло судить о качестве работы
видеокодеков. Обычно ошибка EQM была выше на низких битрейтах и ниже на
высоких.
В связи с тем, что видеокодек на основе вейвлет-преобразования отличается
от стандартного, основанного на дискретном косинусном преобразовании, было
проведено дополнительное исследование и показано, что предложенная во второй
главе нессылочная метрика EQM хорошо предсказывает поведение видеокодеков,
основанных на вейвлет преобразовании.
Очевидно,
что
видеопоследовательности
найденные
эмпирическим
характеризуют
21
не
все
путем
возможные
параметры
варианты
конфигурации видеокодека, однако указанные параметры являются типичными.
Для быстрой оценки параметров новой конфигурации кодека можно использовать
линейную интерполяцию или экстраполяцию параметров A и B (таблица 1 и 4).
Для более точной оценки желательно знать, какие алгоритмы качества включены в
видеокодек, например наличие или отсутствие Bidirectional prediction кадров, Multi
Reference и т.д.
Показано, что с ростом битрейта вклад оценки движения в общее качество
уменьшается. Это объясняется тем, что количество ненулевых коэффициентов на
высоких битрейтах больше, а качество изображения в большей степени
определяется тем, насколько хорошо видеокодек может сохранить оригинальные
значения, минимально искажая их при квантовании или при оценке движения.
Предложенный метод оценки сложности кодирования обеспечивает удачный
баланс между сложностью вычислений и эффективностью использования.
Добавление дополнительных регрессоров увеличивает вычислительную сложность
и требует дополнительного анализа для увеличения точности. Удаление
параметров, напротив, приводит к существенному снижению качества оценки.
Найдены функциональные зависимости сложности кодирования (формулы 6–
11), которые при практическом применении дают достаточно высокую точность
оценки качества, чтобы использовать их для кодирования потокового видео
(например, видеоконференций) или для видео высокого качества (видео для BluRay).
Новая метрика качества кодирования, позволяющая классифицировать
видеопоследовательности
по
сложности,
что
существенно
помогает
структурировать тестирование видеокодеков. Путем расчета EQM, можно заранее
классифицировать исходные последовательности, выбрать только уникальные по
сложности видеоряды и обеспечить полноту покрытия разных диапазонов
сложности.
3. Субъективное тестирование с участием 30 экспертов показало, что оценки,
полученные с помощью объективной метрики EQM, имеют более высокую
корреляцию с оценкой субъективного восприятия качества кодирования видео
(MOS) и превосходит по этому показателю стандартную метрику SSIM, которая
относится к числу лучших из известных на настоящий момент метрик.
4. Анализ качества работы видеокодека методом «полная качественная
оценка» имеет высокую корреляцию со всеми основными алгоритмами кодека и
потенциально может служить в качестве меры качества видеокодека в целом.
22
Анализ качества работы видеокодека методом удаления произвольных кадров из
исходной
видеопоследовательности
в
наибольшей
степени
проверяет
эффективность работы метода битрейт-контроля и метода определения новой
сцены. При использовании данного анализатора в качестве инструмента
внутреннего анализа перед началом тестирования необходимо выравнивать
параметр, отвечающий за величину структуры Group Of Pictures (GOP), и
параметр, определяющий минимальное количество кадров типа Bidirectional
prediction между кадрами типа Intra и Predicted.
Для оценки метода компенсации движения можно использовать анализ
качества
работы
видеокодека
с
использованием
синтетических
видеопоследовательностей с варьируемой скоростью перемещений объектов,
однако при его применении необходимо использовать наиболее медленные
модификации видеопоследовательностей, предпочтительно в диапазоне сложности
от 1 до 3. В ином случае результаты буду нечеткими, так как в работу включится
алгоритм определения смены сцены. Кроме методов компенсации движения,
данный анализатор тестирует алгоритм разбиения на блоки (Subblock split). Это
происходит
вследствие
того,
что
метод
разбиения
на
блоки
является
основополагающим для алгоритма компенсации движения, однако в большей
степени
оказывает
влияние
на
качество
преобразованной
видеопоследовательности. Перед началом тестирования необходимо выравнивать
показатели комбинаций различных оптимизаций, включенных в видеокодек.
Анализ качества работы видеокодека методом добавления шумных кадров в
видеопоследовательность может быть эффективно использован как показатель
действенности алгоритма, определяющего смену сцены (SCD), и метода битрейтконтроля (RC method), однако рекомендуется выравнивать параметры метода
разбиения на типы макроблоков (Subblock split) и параметры алгоритма,
отражающего комбинацию различных оптимизаций (Optimization), включенных в
видеокодек.
5. На основе проведенного исследования были определены ключевые
алгоритмы
кодирования,
оказывающие
наибольшее
влияние
на
качество
закодированной видеопоследовательности. К их числу относятся метод битрейтконтроля (RC method), количество оптимизаций, использованных в видеокодеке
(Optimization), алгоритм, определяющий смену сцены (SCD), метод разделения на
типы макроблоков (Subblock split) и метод компенсации движения (ME method).
23
В
ходе
исследований
идентификации
была
смены
проведена
сцены
оценка
на
влияния
качество
алгоритма
закодированной
видеопоследовательности. Исследования показали, что наличие алгоритма,
определяющего смену сцены (SCD), не влияет на производительность, но
увеличивает качество преобразованной видеопоследовательности.
6. Выявлена
зависимость
между
качеством
работы
нестандартного
видеокодека, уровнем потерь данных в канале связи и типом используемого
вейвлет-преобразования.
Выработан
набор
оптимальных
параметров
для
кодирования видеопотока в условиях передачи видеоинформации по мобильным
сетям и сетям с переменной пропускной способностью. Рекомендуется выделить
наиболее приоритетные пакеты, содержащие низкочастотные коэффициенты.
Сравнение шести различных типов вейвлет-преобразований показало, что у
видеокодека
на
результаты.
Однако
незначительно
основе
вейвлет-преобразования
следует
уступали
ему
отметить,
по
что
качеству.
Daubechies
были
остальные
преобразования
Исключением
было
лучшие
вейвлет-
преобразование на базе Haar.
Выявлено, что сложность кодирования в условиях потерь существенно зависит
от
интенсивности
движения,
поэтому
качество
кодирования
последовательностях с более сложным движением.
падает
Коэффициент
на
сжатия
видеокодеком на основе вейвлет-преобразования в среднем равен 13.
7. Анализ сценариев изменения объема информации показал, что при потере
более двух уровней коэффициентов качество видеопотока становится трудным для
человеческого восприятия. Поэтому рекомендуется выделять основные пакеты
таким образом, чтобы как минимум три уровня передавались гарантированно.
Передача четырех уровней увеличивает качество получаемого видеоряда, однако
требует 50%-ного увеличения размера передаваемого файла.
Предложенная в настоящей работе методика в дальнейшем может быть
использована для изучения более эффективных и современных методов сжатия
видеопоследовательностей, таких как 3D вейвлеты или улучшенные схемы
компенсации движения для вейвлетных кодеков.
Другим направлением развития настоящего исследования может быть анализ
альтернативных метрик оценки качества видеоряда, таких как метрика на базе
нейронных сетей, и узконаправленных метрик, такие как метрика размытости Blur,
и т.д. Перспективно было бы также изучить зависимость между используемым
вейвлет-преобразованием и типом видеоконтента.
24
СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ
Статьи, опубликованные в рецензируемых журналах, рекомендованных ВАК РФ
1. Браиловский
И.В.,
Соломещ
Н.А. 1
Моделирование
качества
для
видеокодирования // Информационные технологии. – 2012. – № 1. – С. 42–48.
2. Соломещ Н.А., Браиловский И.В. Анализ и оптимизация работы вейвлетного
видеокодека в условиях передачи видеопотока по нестабильному каналу связи
// Информационные технологии. – 2014. – № 1. – С. 46–51.
Статьи, опубликованные в сборниках трудов конференций
3. Brailovskiy I., Solomeshch N. Regression Analysis of Correlation between Video
Coding Parameters and Sequence Modification Analyzers // Proceedings of
Nineteenth International Conference on Computer Graphics and Vision. – 2009. – P.
140–144.
4. Brailovskiy I., Solomeshch N. Parameterized Estimation of Video Encoding Quality
// Proceedings of Seventh International Workshop on Video Processing and Quality
Metrics for Consumer Electronics. Compression performance and quality
applications and models. – 2013. – P. 64–69.
Тезисы, опубликованные в материалах конференций
5. Соломещ Н.А. Моделирование качества для видеокодирования // Научные
труды Международной молодежной научной конференции «Гагаринские
чтения
XXXVII».
Секция
информационных
систем
и
прикладных
информационных технологий в социально-экономической сфере. – Москва,
Россия: МАТИ. – 2011. – № 4. – C. 107–109.
6. Соломещ Н.А. Моделирование видеокодирования // Сборник трудов Третьей
Всероссийской молодежной научной школы «Прикладные математика и
физика: от фундаментальных исследований к инновациям». – Москва, Россия:
МФТИ. – 2012. – С. 82–84.
7. Соломещ Н.А. Передача потокового видео в условиях нестабильного канала
связи // Труды пятьдесят пятой научной конференции МФТИ: Всероссийской
научной конференции. Секция радиоэлектроники и прикладной информатики. –
Москва, Россия: МФТИ, 2012. – № 1. – С. 16–17.
1
Н.А. Соломещ в 2013 году изменила фамилию и стала Н.А. Хабибуллина.
25
ХАБИБУЛЛИНА НАТАЛЬЯ АЙЗИКОВНА
РАЗРАБОТКА НОВЫХ МЕТОДОВ АНАЛИЗА КАЧЕСТВА
ВИДЕОКОДЕКОВ И ОПТИМИЗАЦИЯ СИСТЕМ СЖАТИЯ
ВИДЕОИНФОРМАЦИИ
АВТОРЕФЕРАТ
Подписано в печать 04.07.2014. Формат 60 × 84 1/ 16 .
Тираж 100 экз. Заказ № 15.
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
«Московский физико-технический институт
(Государственный университет)»
Отдел оперативной полиграфии «Физтех-полиграф»
141700, Московская обл., г. Долгопрудный, Институтский пер., д. 9
+7 (495) 408-84-30 E-mail: [email protected]
26
1/--страниц
Пожаловаться на содержимое документа