close

Вход

Забыли?

вход по аккаунту

- Портал электронных ресурсов Южного федерального

код для вставкиСкачать
На правах рукописи
Чумаченко Александр Викторович
РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМОВ УСТАНОВЛЕНИЯ
ПИКСЕЛЬНЫХ СООТВЕТСТВИЙ НА СТЕРЕОПАРАХ ДЛЯ РЕШЕНИЯ
ЗАДАЧИ ВОССТАНОВЛЕНИЯ РЕЛЬЕФА
05.13.17 – Теоретические основы информатики
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Таганрог 2014
2
Работа
выполнена
в
Федеральном
государственном
образовательном учреждении высшего образования «Южный
университет» (ЮФУ) на кафедре вычислительной техники
автономном
федеральный
Научный руководитель:
Гузик Вячеслав Филиппович,
доктор технических наук, профессор,
ФГАОУ ВО«Южный федеральный университет»,
кафедра вычислительной техники,
заведующий
Официальные оппоненты:
Ковалев Олег Федорович,
доктор технических наук, профессор, ФГБОУ
ВПО «Южно-Российский государственный
политехнический университет (НПИ) имени
М.И. Платова», кафедра «Информационная
безопасность, телекоммуникационные
системы и информатика», профессор,
г. Новочеркасск
Ведущая организация:
Саблина Виктория Александровна,
кандидат технических наук, доцент,
ФГБОУ ВПО «Рязанский государственный
радиотехнический университет»,
кафедра электронных вычислительных машин,
доцент, г. Рязань
Открытое акционерное общество
«Научно-конструкторское бюро
вычислительных систем», г. Таганрог
Защита состоится «20» февраля 2015 г. в 16-30 на заседании диссертационного
совета Д 212.208.21 при Южном федеральном университете по адресу: 347928,
г. Таганрог, пер. Некрасовский, 44, ауд. Д-406.
С диссертацией можно ознакомиться в Зональной научной библиотеке Южного
федерального университета по адресу: 344103, г. Ростов-на-Дону, ул. Зорге, 21 Ж.
Диссертация
в
электронном
виде
доступна
по
адресу:
http://hub.sfedu.ru/diss/announcements/
Автореферат разослан «__» декабря 2015г.
Ученый секретарь
диссертационного совета Д 212.208.21
доктор технических наук, профессор
Боженюк А.В.
3
Общая характеристика работы
Построение автоматизированных систем фотограмметрической обработки
изображений – актуальное направление исследований теоретической и прикладной
информатики. Их результаты находят применение во многих научных, технических,
промышленных областях, производственных технологиях. Основные задачи
фотограмметрии связаны с определением формы, размеров, положения и типов
объектов в пространстве по их изображениям. Стереофотограмметрия – раздел
фотограмметрии, изучающий методы измерения объемных форм по стереопаре
фотоснимков. В связи с развитием средств цифровой вычислительной техники,
большую актуальность на данный момент имеет цифровая стереофотограмметрия.
Одним из главных этапов построения модели местности по нескольким
изображениям является оценка удаленности наблюдаемых объектов. Главным
признаком удаленности служит параллакс движения – более близкие к точке съемки
объекты характеризуются большей величиной параллакса на изображениях
стереопары и наоборот. Величина параллакса определяется посредством
идентификации пикселов изображений стереопары. Идентификация пикселов
смежных снимков – один из основных процессов цифровой стереофотограмметрии и
машинного зрения, точность которого в значительной степени определяет качество
последующих этапов. Идея автоматизации этого процесса была сформулирована
профессором А.С. Скиридовым в 1924 году и базировалась на сравнении
фотографических плотностей соответственных зон смежных снимков. До
практической реализации эта идея была доведена лишь в середине 1980-х годов при
создании цифровых фотограмметирических систем.
Поясним суть задачи установления пиксельных соответствий. Для этого
рассмотрим пример системы (рисунок 1), состоящей из одной или двух камер и
некоторой точки трехмерного пространства M. Точка M формирует на изображениях
проекции m1 и m2. Зная внешние и внутренние параметры стереосистемы, а также
определив соответствия между проекциями m1 и m2 для всех пикселов изображений
стереопары, можно восстановить положение точки M в трехмерном пространстве.
Величина d=x2-x1 является параллаксом проекции точки M на изображениях
стереопары. Эту величину также называют диспаритетом (анг. - disparity).
Упорядоченную совокупность величин параллакса для всех пикселов стереопары
называют
картой
диспаритетов
(анг. – disparity map),
стереосоответствием
(анг. - stereocorrespondance), картой глубины (анг. – depth map).
Задача вычисления стереосоответствий стереопар активно изучается с
середины 70-х годов прошлого века. Для еѐ решения разработано и адаптировано
множество подходов, методов и алгоритмов. Среди них находят применение
динамическое программирование в работах Hirschmuller H. и Deng Y., билатеральная
фильтрация (анг. – bilateral filtering) в работах K.J.Yoon и Mattoccia S., алгоритмы из
теории графов в работе Колмогорова В. и Зэбих Р., методы цифровой обработки
4
сигналов в работе Bhatti A. и Nahavandi S. Многие из существующих подходов имеют
высокую точность и быстродействие. Однако достижение высокой точности
одновременно с высокой скоростью обработки стереопар – нетривиальная
алгоритмическая и техническая задача.
Изображение 2
X
m2(x2,y2)
Y
Изображение 1
X
Y
m1(x1,y1)
λ
Оптический центр
Оптическая ось
B
(стереобаза)
M
Рисунок 1 – Пространственная модель формирования изображений стереопары
Реализация высокоточных трудоемких методов на специализированных
вычислителях, таких как GPU (анг. – Graphics Processing Unit), позволяет достичь
высокой производительности, как показано в работах Котюжанского Л., Xing M. и др.
Однако конечные системы могут иметь ограничения энергопотребления и массогабаритных характеристик, несовместимые с применением специализированных
вычислителей, например GPU. В связи с этим можно выделить направление
исследований, связанное с задачами уменьшения вычислительной сложности и/или
повышения точности существующих методов и алгоритмов, ориентированных на
вычислители общего назначения.
Целью диссертационной работы является разработка и исследование методов и
алгоритмов установления пиксельных соответствий на стереопарах для решения
задачи восстановления рельефа, обеспечивающих высокую производительность на
универсальных вычислителях, таких как современные процессоры общего
назначения. Детальное рассмотрение данного направления приводит к следущим
задачам, решаемым в диссертационной работе:
1. Разработка и исследование метода оценки границ значений диспаритета
стереопары.
2. Исследование функций сравнения опорных окон с целью сравнительной
оценки их точности и оптимизации вычисления.
3. Исследование, анализ и выявление ключевых принципов существующих
высокоточных методов установления пиксельных соответствий с целью их
адаптации и применения в разрабатываемом подходе.
5
4. Разработка и исследование нового комплексного алгоритма установления
пиксельных соответствий, ориентированного на программную реализацию для
процессора общего назначения.
Научная новизна проведенных исследований заключается в разработке новых
методов и алгоритмов, которые в совокупности с существующими образуют новый
комплексный алгоритм установления пиксельных соответствий стереопар (далее по
тексту «комплексный алгоритм»), ориентированный на универсальные вычислители.
В процессе работы над диссертацией были получены новые научные результаты:
1. Разработан новый статистический метод оценки границ диспаритетов
стереопар, позволяющий исключить границы диспаритетов из параметров
модели восстановления рельефа. Известные автору подходы и алгоритмы
идентификации пикселов стереопар рассматривают границы диспаритетов как
заданный параметр стереопары, что не может быть гарантировано в условиях
динамически изменяющейся внешней среды. Предложенный статистический
метод обеспечивает высокую точность определения границ диспаритетов: в
среднем 98% и не менее 94%.
2. Выявлено и сформулировано свойство контекстной зависимости функций
сравнения опорных областей. Установлено, что оптимизация методом
интегральных массивов или методом скользящего окна может применяться
только для контекстно-независимых функций.
3. Разработан метод многокритериальной сегментации изображений стереопары,
отличающийся от известных тем, что учитывает не только сходство пикселов
формируемого сегмента по цвету, но и их взаимную удаленность в координатах
изображения. Кроме того, разработан новый метод слияния малых сегментов,
повышающий эффективность последующей статистической аппроксимации
карты
диспаритетов.
Программная
модель
методов
сегментацииаппроксимации затрачивает на обработку в среднем в 10 раз меньше времени
аналогов в части сегментации изображения.
4. Разработан и исследован быстродействующий комплексный алгоритм поиска
пиксельных соответствий на стереопарах, отличающийся от существующих
тем, что изначально ориентирован на универсальный вычислитель и не
задействует векторные инструкции (типа SIMD, анг. – Single Instruction
Multiple Data) или средства многопоточных вычислений. При этом время
работы программной модели алгоритма в среднем в 2 раза меньше аналогов,
сопоставимых по точности.
Теоретическая значимость результатов, полученных в диссертации,
заключается в том, что разработанные методы и алгоритмы представляют собой
новые подходы к решению задачи установления пиксельных соответствий на
стереопарах.
Практическая значимость диссертационного исследования заключается в
том, что разработанные методы и комплексный алгоритм могут быть использованы
6
для построения быстродействующих систем стереозрения на базе процессоров
общего назначения, без применения специализированных вычислителей. Все
полученные результаты доведены до практической программной реализации, их
эффективность подтверждена экспериментально.
Методы исследования опираются на теоретические основы информатики,
методы прикладной информатики, методы оптимизации, методы цифровой обработки
изображений, теорию сложности вычислений, теорию математической статистики,
теорию графов, теорию множеств, объектно-ориентированное программирование.
Основные положения и результаты, выносимые на защиту:
1. Комплексный алгоритм установления пиксельных соответствий стереопар.
2. Приложение неравенств математической статистики к вычислению границ
значений диспаритетов стереопар.
3. Статистический метод оценки границ значений диспаритетов стереопар.
4. Метод оптимизации контекстно-независимых функций сравнения опорных
окон с помощью интегральных массивов.
5. Многокритериальный метод сегментации базового изображения стереопары и
статистического уточнения стереосоответствий.
6. Приложение структуры данных «Система непересекающихся множеств» в
методе слияния малых сегментов метода сегментации изображения.
Реализация
и
использование
результатов
работы.
Результаты
диссертационного исследования использовались при выполнении г/б НИР №12252
«Разработка
теории
и
принципов
построения
интеллектуальных
высокопроизводительных реконфигурируемых многопроцессорных вычислительных
систем на основе аппаратных мультипрограммных средств и специализированных
трансляторов алгоритмов в аппаратные программы», а также в учебном процессе по
курсу «Проектирование проблемно-ориентированных вычислительных систем»
кафедры «Вычислительной техники» федерального государственного автономного
образовательного учреждения высшего образования «Южный федеральный
университет» (ФГАОУ ВО «Южный федеральный университет»).
Достоверность и обоснованность результатов вытекает из математического
обоснования разработанных методов и алгоритмов, подтверждается оценками
вычислительной сложности, а также результатами программного эксперимента.
Исследования и эксперименты проведены на свободно доступных в продаже
действующих образцах вычислительных устройств общего назначения.
Апробация работы. Основные результаты работы докладывались на:
1. VII Всероссийской научной конференции молодых ученых, аспирантов и
студентов «Информационные технологии системный анализ и управление»,
2009.
2. III Всероссийская научная конференция молодых ученых, аспирантов и
студентов «Современные технологии, естествознание, педагогика», СТЕПЬ2014.
7
Публикации. По материалам работы опубликовано 5 работ с общим объемом 2
печатных листа, в том числе 3 статьи в изданиях, рекомендованных ВАК.
Структура и объем работы. Диссертационная работа состоит из введения,
четырех глав основного раздела, заключения, списка литературы и приложений.
Основное содержание работы изложено на 113 страницах, включая список
литературы из 69 наименований, материалы приложений изложены на 21 странице.
СОДЕРЖАНИЕ РАБОТЫ
Во введении приводится обоснование актуальности темы диссертационной
работы. С учетом нерешенных проблем определяется цель работы, определяется круг
задач, методы исследований, аргументируется научная новизна. Сформулированы
основные положения, выносимые на защиту, а также научная и практическая
ценность исследования.
В первой главе рассматриваются особенности пространственной модели
формирования стереопар, формулируются допущения к их свойствам и свойствам
проекций объектов. Если изображения стереопары лежат в одной плоскости (в обоих
положениях камеры) и соответствующие горизонтальные эпиполярные линии имеют
равные координаты по оси OY, то расстояние до объекта вычисляется по формуле (1)
как показано в работе Kim H.:
Z f 
f B
f B
 f 
x2  x1
d
(1)
где f – фокусное расстояние камеры, B ‒ величина стереобазы (расстояние
между точками съемки), d=x2-x1 ‒ разность координат соответствующих пикселов на
изображениях стереопары, Z ‒ расстояние от плоскости съемки до точки M. Оценка
точности стереосоответствий, как правило, опирается на две величины:

доля пикселов у которых, значение диспаритета отличается более чем на δd от
корректного значения;

среднеквадратическое отклонение от корректного значения величины
диспаритета для всех пикселов стереопары.
Для такой оценки точности стереосоответствий необходимы высокоточные
карты диспаритетов стереопар (эталоны). При этом цифровые фотоснимки
отличаются дискретностью представления данных и конечностью разрешения.
Поэтому здесь и далее «эталоном» будем называть такое стереосоответствие, для
которого отличие значений диспаритета от истинных много меньше, чем ожидаемый
уровень ошибки алгоритма идентификации пикселов. Для получения таких эталонов
применяют методы с активной подсветкой сцены, например описанные в работах
Русинкевича Ш. и Scharstein D. В совокупности с высокой точностью таким методам
свойственны характерные недостатки, такие как дополнительное энергопотребление,
сложность обеспечения достаточного уровня подсветки на значительном удалении,
недостаточная степень помехозащищенности и малозаметности. Подходы и
алгоритмы, исследуемые в данной диссертации, данных недостатков априори
8
лишены, так как опираются на бесконтактный оптико-электронный способ получения
информации в виде цифровых изображений.
Для экспериментов используются 10 стереопар из работы D. Scharstein,
находящиеся в свободном доступе на сайте коллежда Миддлбери, США, в части
портала
компьютерного
зрения
(URL: http://vision.middlebury.edu/stereo/data).
Разрешение изображений варьируется от 384x288 до 695x555, стереопары разделенны
на два множества, здесь и далее именуемые набор-1 и набор-2. Для стереопар из
набора-2 известны параметры съемки: фокусное расстояние f=3740 пикс., стереобаза
B=160мм. На практике фокусное расстояние цифровых фотокамер f ≤ 1м, а для
большинства объективов составляет 35-120мм. В силу этого, наибольший вклад в
значение выражения (1) вносит второе слагаемое. Тогда удаленность объекта можно
оценить по упрощенной формуле (2), а разрешение по глубине вычислять по формуле
(3).
f B
(2)
d
f B f B
1
1
f  Be
Z (d , e)  Z (d )  Z (d  e) 

 f  B( 
)
(3)
d
d e
d d e
d  (d  e)
Z
Оценка удаленности объектов сцены по формуле (2) для стереопары 2005_Art
дает приблизительный диапазон расстояний [2,77 .. 7,48] м. Разрешение по глубине
падает при удалении объектов от плоскости съемки. При половинном разрешении
изображения (555х695 пикселов), стереобазе B=0,04м, ошибке определения
диспаритета δd=1, разрешение по глубине составляет [0,099 .. 0,680] м.
Вычислительная сложность основного этапа идентификации пикселов, как
правило, может быть описана выражением O(x∙d), где d – максимальное значение
диспаритета пикселов, x - множитель, включающий зависимости от других
параметров стереопары. В общем случае значения диспаритета лежат в интервале
[0..W], где W – ширина изображения стереопары в пикселах (при горизонтальном
парралаксе). На практике, при сравнительно небольших значениях стереобазы,
величины параллаксов могут составлять не более 1/20 от ширины изображения.
Определение фактического диапазона значений диспаритетов сужает область поиска
соответствующих пикселов с [0..W] до [dmin..dmax]. Также это делает возможным
применение различных методов оптимизации, например приемов динамического
программирования для вычисления значений функции сравнения опорных областей.
Разработанный метод оценки границ диспаритета стереопары состоит из трех
этапов. На первом этапе по малой статистической выборке вычисляется
приблизительная оценка максимального значения диспаритета dmax. На втором этапе
вычисляются вспомогательные интегральные массивы для всех значений диспаритета
в пределах [0..dmax], позволяющие ускорить расчет функции сравнения опорных
областей на два порядка. На третьем этапе размер статистической выборки
увеличивается приблизительно в 10 раз, что позволяет уточнить границы диспаритета
9
по сравнению с первым этапом. Метод статистической оценки границ диспаритета
опирается на следующие неравенства (4) и (5):
P( X    k ) 
1
k2
(4)
P( X    k ) 
4
9k2
(5)
Выражение (4) назвают неравенством Чебышѐва. Оно дает грубую оценку
вероятности P отклонений значений случайной величины (СВ) X от
еѐ математического ожидания μ через дисперсию σ. Выражение (5) называют
неравенством Высочанского-Петунина. Оно уточняет неравенство (4) для
одномодальных выборок (см. Высочанский Д. Ф., Петунин Ю. И. Обоснование
правила трех сигм для одномодальных распределений. Теория вероятностей и мат.
статистика, 1979, вып. 21, С. 23-35). Соответственно в алгоритме, реализующем
метод, неравенство (4) применяется для многомодальных статистических выборок
(принимается k=4), неравенство (5) – для одномодальных (принимается k=3). На
практике чаще всего задействуется второе неравенство, так как выборки в
большинстве случаев одномодальны.
Рассмотрим пример возможного распределения значений диспаритета. Пусть
существует выборка S такая, что |S|=20 и S={1х18, 10х2}, то есть число «1»
встречается 18 раз, а число «10» встречается 2 раза. Для такой выборки
математическое ожидание СВ μ=1,9, а стандартное отклонение σ=2,77. Выборка
смещена в сторону меньших по модулю значений. Но даже в таком
«неблагоприятном» случае правило трех сигм приводит к корректной оценке верхней
границы (μ+3∙σ)=10,21.
Подробное описание алгоритмов, соответствующих первому и третьему этапу
метода оценки, приведено в диссертации (стр. 34-39). По результатам экспериментов
точность оценки верхней и нижней границы диспаритетов после трех этапов
составляет не менее 94%, в среднем 98%, что хорошо согласуется с теоретическими
оценками. Время работы программной модели алгоритма не превышает 65мс на
стереопару.
Во второй главе рассмотрен комплекс вопросов, связанных с оптимизацией и
точностью результатов известных функций сравнения опорных областей.
Исследование этих вопросов является актуальной научной задачей и нашло
отражение в работах Аргутина В., Hirschmuller H. и др. В данной главе разработан
метод оптимизации вычисления контекстно-независимых функций с помощью
интегральных массивов и определены границы его применимости. В частности
показано, что метод применим к функциям SAD (анг. – Sum of Absolute Differencies,
рус. – сумма абсолютных значений разностей) и SSD (анг. – Sum of Squared
Differencies, рус. – сумма квадратов разностей). Альтернативой методу интегральных
массивов может быть метод скользящего окна. Однако он имеет ряд недостатков:
опорное окно должно быть константного размера, порядок обхода опорных окон
10
строго фиксирован. В связи с этим, метод скользящего окна не позволяет за O(1)
последовательно вычислить значения функции для опорных областей различного
размера в произвольных частях изображения в произвольном порядке.
Наибольшая точность идентификации пикселов достигается при использовании
функций ранговой оценки (анг. – Rank), Census и ZSAD (анг. – Zeroed Sum of Absolute
Differencies, рус. – сумма абсолютных разностей с коррекцией по среднему), однако
оптимизация указанными выше методами для них невозможна в силу свойства
контекстной зависимости. Свойство контекстной зависимости означает, что
вклад некоторого пиксела изображения в значение функции сравнения опорных
областей не может быть расчитан заранее для произвольной опорной области в силу
зависимости от еѐ параметров (положения, размеров и т.д.).
То есть метод интегральных массивов и метод скользящего окна применимы
только для контекстно-независимых функций. Вычислительная сложность
предварительных расчетов и основного шага установления пиксельных соответствий
в данном случае сокращается с O(N∙n∙m∙d) до O(N∙d), где N – число пикселов
стереопары, d – число возможных значений диспаритета.
Функция Census формирует для опорной области «двоичный отпечаток» или
двоичный вектор. При сравнении опорных областей фактически вычисляется
расстояние Хэмминга между двумя двоичными векторами. По своей сути функция
Census соответствует функциям типа «перцептивный хэш». Вычисление значения
функции Census может быть оптимизировано «упаковкой» опорных областей в
двоичные векторы фиксированного размера с последующим применением побитовых
операций. Вычислительная сложность предварительных расчетов и основного шага
установления
пиксельных
соответствий
в
данном
случае
составит
O(N∙n∙m)+O(N∙dmax), где N – число пикселов изображения стереопары, n,m – размеры
опорного окна.
Таким образом, в связи с возможностью применения оптимизаций множество
исследуемых в данной диссертационной работе функций составляют SAD, SSD и
Census. Рассмотрим подробнее схему сопоставления опорных окон, метод
скользящего окна и метод интегральных массивов. Пусть пикселы p1 и p2 являются
смежными и лежат на одной горизонтальной прямой в координатах изображения, как
показано на рисунке 2.
Опорные множества пересекаются и образуют непустое множество P1∩P2. При
наложении опорных окрестностей базового изображения на второе в позиции x+d и
x+d+1для пикселов p1 и p2 соответственно, множество P1∩P2 будет наложено на одну
и ту же область второго изображения. Вычисление вклада пикселов в значение
функции по отдельности приводит к повторному вычислению функции для одних и
тех же подмножеств наложений. Таким образом, задача оптимизации вычисления
значений целевой функции S(P,d), где P – можество пикселов опорного окна, d –
значение диспаритета, заключается в исключении повторных вычислений для
11
заведомо
пересекающихся
множеств,
образуемых
опорными
областями
соседствующих пикселов.
P1 и P2 обозначают опорные множества для пикселов p1 и p2 соответственно.
Используя обозначения из теории множеств, выразим наложение множества P2 в
позицию x+d+1 через S(P1,d), как показано в формуле (6):
S ( P2 , d  1)  S ( P1 , d )  S ( P1 \ P2 , d )  S ( P2 \ P1, d  1)
(6)
Очевидная реализация этой формулы, а именно вычесть вклад левого столбца и
прибавить вклад правого столбца, является методом скользящего окна. При
попиксельном сложении-вычитании вычислительная сложность основного шага
снижается с O(N∙n∙m∙dmax) до O(N∙n∙dmax). Вычисление вклада столбцов векторными
операциями снижает вычислительную сложность основного этапа до O(N∙dmax).
Преимущество данного подхода – минимальные дополнительные затраты памяти: не
требуются вспомогательные массивы, сумма вычисляется только в пределах опорного
окна, а промежуточные значения могут представлены наименьшим числом бит.
Основными недостатками являются фиксированный размер опорного окна и
«однопроходность». «Однопроходность» означает, что за O(1) вычислять значение
функции можно только для определенного порядка обхода опорных окон.
Второе изображение
Базовое изображение
X
X
p1+d
p
1
Y
Y
x
Базовое изображение
x+d
Второе изображение
X
p
Y
X
p
2+d
2
x+1
P1∩P2
Y
x+d+1
P1∩P2
Рисунок 2– Пересечение областей P1и P2 и их общее подмножество
Для пояснения сути метода интегральных массивов рассмотрим пример.
Пусть задан некоторый массив чисел A:
A = {3, 12, -1, 0, 28, 5, 7, -10, 2, 7}
Пусть массив не изменяется и необходимо отвечать на запросы вида: какова
сумма элементов массива, начиная с индекса l и заканчивая индексом r. Рассчитаем
12
вспомогательный массив B, в котором элемент Bi равен сумме элементов B0…Bi. Для
приведенного примера массив будет иметь вид:
B = {0, 3, 15, 14, 14, 42, 47, 54, 44, 46, 53}
Теперь сумму элементов на отрезке [l,r] можно вычислить за O(1):
Сумма(l , r )  B[r ]  B[l  1]
(7)
Этот подход обобщается и для случая произвольной размерности.
Прямоугольные опорные области описываются двумя координатами (x,y), а функция
сравнения опорных областей вычисляется для различных значений диспаритета d.
Следовательно, вспомогательный интегральный массив D должен быть трехмерным.
Произвольный элемент D[d,i,j] должен быть равен сумме значений функции для всех
пикселов с координатами (x∈1..j, y∈1..i):
j
i
D[d , i, j ]   S ( P( x, y), d )
x 1 y 1
(8)
где P(x,y) – вырожденная опорная область из одного пиксела или просто пиксел
с координатами x,y.
Значения элементов массива D для некоторого d можно вычислять за O(1),
используя приѐм динамического программирования. Для расчета D[d,i,j]
использовать уже вычисленные значения для меньших i и j:
D[d , i, j ]  D[d , i  1, j ]  D[d , i, j  1]  D[d , i  1, j  1]  S ( P(i, j ), d )
(9)
Прямоугольную опорную область пиксела p обозначим как R, еѐ границы по оси
X обозначим xmin и xmax, по оси Y ymin и ymax, как показано на рисунке 3. Тогда значение
функции для всей опорной области можно вычислить за O(1) по формуле:
S ( R, d )  D[d , ymax , xmax ]  D[d , ymax , xmin  1] 
D[d , ymin  1, xmax ]  D[d , ymin  1, xmin  1]
0,0
xmin
(10)
xmax
X
D [ d , y min  1, x max ]
ymin
R
ymax
D[d , y max , x min  1]
D[d , y min  1, x min  1]
Y
Рисунок 3 – Опорная область R, вспомогательные области для вычисления
значения функции сравнения опорных областей
Таким образом, метод интегральных массивов требует O(N∙dmax)
дополнительной памяти для вспомогательных таблиц и O(N∙dmax) операций для их
расчета, а также O(N∙dmax) операций на основном шаге поиска стереосоответствий.
13
Метод позволяет за O(1) вычислять значение контекстно-независимой функции для
опорных окон переменного размера, в произвольном порядке и без применения
векторных операций.
Третья
глава
посвящена
разработке
и
исследованию
метода
многокритериальной сегментации и статистического уточнения стереосоответствий.
В современных наиболее точных методах идентификации пикселов в том или
ином виде в вычислительный процесс включается дополнительная пространственноцветовая информация групп пикселов, позволяющая повысить точность
стереосоответствий. Такой подход отражен в работах Wang Z. (статья «A region based
stereo matching algorithm using cooperative optimization»), Xing Mei et al. (статья «On
building an accurate stereo matching system on graphics hardware») и Klaus A. et al.
(статья «Segment-based stereo matching using belief propagation and a self-adapting
dissimilarity measure»). Методы из этих работ погалаются на то, что
близкорасположенные пикселы похожего цвета принадлежат одному предмету и
равноудалены от плоскости съемки. Для выделения групп пикселов схожего цвета
применяется сегментация изображения. В рассмотренных работах авторы используют
«Mean-shift»-сегментацию (рус. – сдвиг среднего), представленную в работе D.
Comaniciu и P. Meer «Mean shift: A robust approach toward feature space analysis».
Такой подход приводит к увеличению точности стереосоответствий, однако время
работы программной модели в части сегментации составляет около 10 секунд на
стереопару. Разработанный в данном исследовании многокритериальный метод
сегментации имеет линейную сложность, а его программная реализация затрачивает
не более 65 мс на стереопару.
Суть многокритериальности состоит в том, что помимо оценки сходства цвета
пикселов учитывается их удаленность в координатах изображения. Мера сходства
цвета и мера удаленности объединяются в одну функцию подобия следующего вида:
F ( p, p )  2  e
*

D
D ( p , p* )
e

C
C ( p , p* )
(11)
где λD – нормировочный коэффициент расстояния пикселов, λC –
нормировочный коэффициент цветового расстояния пикселов в пространстве RGB
(анг. - Red Green Blue, рус. - красный зеленый синий), D(p,p*) и C(p,p*) – функции
вычисления оценок обычного и цветового расстояния пикселов p и p*.
Сегменты строятся из начального пиксела pi, а вновь добавяемые пикселы pj
должны быть смежными с уже включенными пикселами и удовлетворять условию:
F(pi, pj) ≥ τ
(12)
где τ – минимально допустимое значение функции подобия пикселов.
Предложенный метод сегментации состоит из двух этапов. На первом этапе
сегменты строятся методом разрастания из узлов мнимой прямоугольной регулярной
сети, наложенной на изображение. Пусть размер ячейки сети равен s пикселов, тогда
координаты i-го по горизонтали и j-го по вертикали узла смещены на половину шага
от нуля и вычисляются по формулам:
14
xcij=s∙(i+0.5), ycij=s∙(j+0.5)
(13)
На втором этапе сегменты строятся также методом разрастания из таких
начальных вершин vi, которые ещѐ не принадлежат ни к одному из существующих
кластеров, начиная с наименьших значений координат x,y.
На обоих этапах для функции (11) в части сравнения цвета вместо цвета
узлового пиксела pi передается среднее значение цвета RGB по текущей построенной
окрестности L. Это снижает зависимость сегментации от выбора узлового пиксела.
Приведем метод сегментации базового изображения (БИ) в виде псевдокода
алгоритма:
Сегментация изображения стереопары (БИ)
1
Сформировать пустой список подмножеств S
2
Для всех x из интервала ½ s ≤ x < БИ.Ширина
3
Для всех y из интервала ½ s ≤ y < БИ.Высота
4
Если Пиксел P(x,y) ∉ какому-либо Si
5
Sn ← Окрестность пиксела P(x,y)
6
Добавить Sn в S
7
y←y+s
8
x←x+s
9
Для всех x из интервала 0 ≤ x < БИ.Ширина
10
Для всех y из интервала 0 ≤ y < БИ.Высота
11
Если Пиксел P(x,y) ∉ какому-либо Si
12
Sn ← Окрестность пиксела P(x,y)
13
Добавить Sn в S
14
y←y+1
15
x←x+1
16
Вернуть список подмножеств S
Получить окрестность пиксела P(x,y)
1
Сформировать пустую окрестность пикселов L
2
Сформировать пустую очередь (FIFO) пикселов Queue
3
L ← P(x,y); Queue←P(x,y)
4
ARGB←P(x,y)
5
Пока в очереди Queue есть элементы
6
P2 ← первый пиксел из очереди
7
Для каждого p смежного с P2
8
Если (Пиксел p ∉ какому-либо Si ) И (F(p, P(x, y)) ≥ τ)
9
L ← p; Queue ← p
10
Перерасчитать ARGB с учетом p
11
Вернуть окрестность пикселов L
Приведенный алгоритм сегментации основан на так называемом обходе графа
в ширину, описанного в книге Н. Кристофидеса «Теория графов. Алгоритмический
подход». При таком обходе смежные вершины помещаются и извлекаются из очереди
15
FIFO (First in First out – анг. первым пришел, первым ушел). Для произвольного
связного графа сложность обхода в ширину составляет O(N+M), где N – число
вершин, M – число ребер. В рассматриваемом графе для каждой вершины существует
не более 4-х смежных с ней вершин. При условии, что операции с очередью и
вычисление функции F(x) производятся за O(1), итоговая сложность алгоритма
составляет O(N), где N – количество вершин в графе (число пикселов в базовом
изображении стереопары).
На практике данный алгоритм сегментации генерирует много небольших
сегментов, снижающих «информативность» кластеризации. Для уменьшения их числа
в данном исследовании разработан двухэтапный метод слияния малых сегментов. На
первом этапе для каждого сегмента Ss с числом пикселов менее T находится наиболее
подходящий по цвету из ближайших сегментов Sm. На втором этапе для всех малых
сегментов Ss производится слияние с соответствующими Sm. Для эффективного
слияния применяется «Система непересекающихся множеств», описанная в книге
Кормена Т.Х. и др. «Алгоритмы: построение и анализ». Вычислительная сложность
сегментации с учетом слияния малых сегментов составляет O(N), где N – число
пикселов на изображении стереопары.
В основе предлагаемого метода аппроксимации (уточнения) лежит
предположение, что в пределах сегментов корректные значения диспаритета
составляют существенную часть из всех возможных. Значение диспаритета di для
группы пикселов в пределах сегмента считается корректным, если их доля составляет
не менее X% от общего числа пикселов сегмента. В экспериментах данного
диссертационного исследования принято X=20%.
Программная модель соответствующих алгоритмов работает до 10 раз быстрее
модели, основанной на методе сегментации SLIC-SP из работы Achanta R. и др. «SLIC
Superpixels Compared to State-of-the-Art Superpixel Methods», при более высокой
точности стереосоответствий. Число неверно найденных пиксельных соответствий
снижается на величину от от 4% до 11% в зависимости от входных данных. Таким
образом, экспериментальная проверка разработанных методов доказывает
корректность исходных посылок, предположений и оценок вычислительной
сложности их алгоритмической реализации.
В четвертой главе показано, как предложенные методы можно объединить
для создания комплексного алгоритма установления пиксельных соответствий. Также
рассматриваются существующие подходы увеличения точности стереосоответствий:
применение композитных функций сравнения опорных областей, проверка
согласованности соответствий, фильтрация карты диспаритетов. Рассматривается и
исследуется предложенный метод локализации оценок диспаритета фрагментов
стереопары, снижающий вычислительную сложность основного шага идентификации
пикселов до линейной и увеличивающий точность. Блок-схема итогового
комплексного алгоритма представлена на рисунке 4.
16
В представленной блок-схеме шаг локализации оценок диспаритета выделен
пунктиром. Это означает, что в экспериментах итовый комплексный алгоритм будет
иметь два варианта: с этапом локализации оценок диспаритетов и без него. Кроме
того необходимо учесть применение различных целевых функций сравнения опорных
областей. Исходя из представленных параметров комплексного алгоритма
установления пиксельных соответствий (КАУС), множество возможных вариантов
состоит из 8 алгоритмов, как показано в таблице 1.
Начало
Ввод изображений
стереопары
Оценка dmax (алгоритм-1)
Вычисление вспомогательных
интегральных массивов
Оценка [dmin; dmax] (алгоритм-2)
Локализация оценок диспаритета
(алгоритм-3)
Основной шаг совмещения
стереопар
Сегментация и уточнение
(МКСУ-1-МФ)
Вывод
стереосоответствия
Конец
Рисунок 4 – Трехмерная визуализация рельефа стереопары 2005_Art (слева) и
блок-схема комплексного алгоритма установления стереосоответствий (справа)
Таблица 1 – Варианты комплексного алгоритма КАУС
Локализация\Целевая ф-ия
SAD
С локализацией
КАУС-1.1
Без локализации
КАУС-2.1
SSD
КАУС-1.2
КАУС-2.2
SAD+Census
КАУС-1.3
КАУС-2.3
SSD+Census
КАУС-1.4
КАУС-2.4
В качестве вычислительного устройства использован универсальный процессор
Intel(R)
Coretm
i7-3820
с
частотой
3.6ГГц
(операционная
система
tm
Microsoft Windows 7). Программная модель разработана на языке C++, для сборки в
исполняемый файл использован компилятор и сборщик Microsofttm Visual C++ 9.0,
многопоточность вычислений не задействована.
17
В экспериментах задействованы стереопары из набора-1 и набора-2.
Критериями эффективности являются доля неверно-найденных соответствий
(% ошибок), среднеквадратическое отклонение значений диспаритета всех пикселов
от «эталона» (СКО) и суммарное для двух наборов время работы программной
модели (время (сек.)). Результаты экспериментов приведены в таблице 2.
Таблица 2 – Итоговые показатели эффективности различных алгоритмов
установления стереосоответствий для стереопар из набора-1 и набора-2
(10 стереопар)
Алгоритм
% ошибок
время (сек.)
СКО
КАУС-1.1(SAD+лок.)
КАУС-1.2(SSD+лок.)
КАУС-1.3(SAD+лок.+Census)
КАУС-1.4(SSD+лок.+Census)
КАУС-2.1 (SAD)
КАУС-2.2 (SSD)
КАУС-2.3 (SAD+Census)
КАУС-2.4 (SSD+Census)
9,69%
9,86%
7,95%
9,08%
9,77%
11,00%
8,27%
9,88%
2,800
2,800
4,656
4,374
4,704
4,743
7,453
7,177
1,606
1,650
1,496
1,616
1,974
2,209
1,841
2,157
По результатам экспериментов можно сделать следующие выводы.
1. Наименьшее время обработки стереопары достигается в режимах с
применением простых контекстно-независимых целевых функций (SAD, SSD)
совместно с методом локализации границ диспаритета (КАУС-1.1,-1.2). Среднее
время обработки стереопары в таких режимах составляет около 300 миллисекунд.
2. Предложенный метод локализации границ диспаритета увеличивает как
быстродействие програмной модели в 1,6 раза, так и точность стереосоответствий на
величину от 0,1% до 1,14%. Кроме того, применение данного подхода позволяет
применить контекстно-зависимую функцию без потери быстродействия (см. КАУС1.3 и КАУС-2.1).
3. Наибольшая точность достигается в режиме КАУС-1.3. Это подтверждает
большую точность контекстно-зависимой целевой функции Census по сравнению с
контекстно-независимыми SAD и SSD. Среднее время обработки стереопары при
этом возрастает на 66%, несмотря на применение оптимизаций битовыми векторами.
4. Для рассмотренных стереопар целевая функция SSD не имеет преимуществ
над функцией SAD ни по точности, ни по быстродействию программной модели.
Кроме того, при прочих равных условиях, в ряде случаев, она приводит к большему
числу неверно найденных соответствий и большему значению СКО.
5. Точность установления стереосоответствий предложенного комплексного
алгоритма (КАУС-1.1) сопоставима (набор-1) или выше (набор-2) по сравнению с
наиболее точными существующими методами на основе функции SAD. Фактически
совокупность всех предложенных оптимизаций доводит точность комплексного
алгоритма на основе функции SAD до уровня существующих высокоточных
алгоритмов, таких как SGM и GC с функциями Rank и Census. При этом
18
проиводительность программной модели составляет 2-4 кадра/сек. без применения
специализированных вычислителей.
ЗАКЛЮЧЕНИЕ
Разработка все более совершенных алгоритмов совмещения стереопар является
нетривиальной задачей. В данном диссертационном исследовании разработан
комплекс методов для снижения вычислительной сложности и увеличения точности
традиционных подходов установления стереосоответствий. Одним из наиболее
важных свойств всех предложенных методов и алгоритмов является изначальная
ориентация на универсальные вычислительные устройства, в частности современные
процессоры общего назначения.
В известных автору работах границы диспаритета рассматриваются как
заведомо известные параметры стереопары. На практике в условиях постоянно
изменяющейся окружающей среды такой подход является серьезным ограничением
по автономности конечных систем и устройств. Предложенный статистический метод
оценки границ диспаритета позволяет расширить границы применимости
существующих подходов совмещения стереопар, что подтверждается результатами
проведенного эксперимента.
Предложенный метод оптимизации вычисления контекстно-независимых
целевых функций (SAD и SSD) с помощью интегральных массивов снижает
вычислительную сложность основного шага установления стереосоответствий с
O(N∙n∙m∙dmax) до O(N∙dmax). Метод позволяет использовать прямоугольные опорные
окна любых размеров без увеличения вычислительной сложности основного шага
совмещения стереопар. Метод локализации границ диспаритета позволяет еще
больше снизить вычислительную сложность основного шага. При этом
экспериментально подтверждено сопутствующее локализации границ диспаритетов
повышение точности стереосоответствий.
Предложенный метод сегментации изображения и статистического уточнения
стереосоответствий (МКСУ-1-МФ) снижает долю неверно-найденных соответствий в
среднем в 1,5-2 раза при доказанной вычислительной сложности O(N) его
алгоритмической реализации. Кроме того, экспериментально подтверждена его
большая эффективность в задаче совмещения стереопар в сравнении с
существующим аналогичным методом, а именно SLIC-SP из работы Achanta R. и др.
Комплексный алгоритм поиска стереосоответствий сочетает в себе как низкую
вычислительную сложность, так и высокую точность, не уступающую современным
более трудоѐмким алгоритмам типа GC или SGM.
Обсуждение результатов исследования. Представленные результаты могут
быть расширены и дополнены в исследованиях смежных научных задач.
Производительность программной модели алгоритма КАУС составляет
несколько кадров в секунду (от 2 до 4). Это лучше, чем у программных моделей,
представленных в аналогичных исследованиях при сопоставимом уровне точности.
Но для некоторых задач может потребоваться более высокие точность
19
стереосоответствий и производительность модели. В таком случае применение
специализированных вычислителей может быть целесообразным. В части
применения видеоускорителей с интерфейсом CUDA есть ограничения, отмеченные
во введении к данной диссертации. Альтернативой видеоускорителям могут служить
платы расширения на основе программируемых логических интегральных схем
(ПЛИС), как показано в работах Woodfill J. I., Tomasi M. и Ambrosch K. Устройства на
базе ПЛИС-вычислителей могут сочетать в себе как высокую производительность,
так и низкое энергопотребление. Это достигается за счет высокой степени адаптации
алгоритма решения поставленной задачи под структуру вычислителя и наоборот.
Основная сложность состоит в «переводе» существующих алгоритмов и методов в
базис ПЛИС-архитектуры.
В разделе 4.4 диссертации приведено сравнение разрешения по глубине
существующего контроллера Microsoft Kinect с ИК-дальномером и программной
модели КАУС с различным уровнем погрешности значения диспаритета. Дальномер
Kinect состоит из модуля ИК-подсветки сцены и ИК-сенсора, работающего при
разрешении 640x480 с максимальной частотой 30 кадров в секунду. Рассмотренные в
данном исследовании стереопары из набора-2 имеют сопоставимое разрешение
изображений (695x555 пикселов), но при этом обеспечивают точность меньшую, чем
Kinect если уровень погрешности e принять равным одному пикселу. В соответствии
с формулой (1.5) точность определения удаленности объектов (разрешение по
глубине) может быть улучшена за счет увеличения разрешения изображений, за счет
увеличения стереобазы B и за счет уменьшения ошибки вычисления значений
диспаритетов e.
Первые два подхода связаны с изменением параметров съемки. Большие
изображения требуют больше времени на обработку, а большее значение стереобазы
приводит к увеличению невосстановимой части стереопары (область пересечения
изображений уменьшается).
Третий подход может быть реализован с помощью аппроксимации целевой
функции для поиска дробных значений диспаритета. В существующих исследованиях
для этого применяются параболические или кубические сплайны, например в работах
Fisher R.B. et al. и Bailey D.G. Такое решение применимо, если функция сравнения
опорных областей в рассматриваемой локальности представима полиномом 2-й или
3 й степени. В работе Shimizu M. и Okutomi M. для трех различных функций
сравнения опорных областей выявлено, что применение пораболического сплайна
при определенных условиях приводит к накоплению ошибки. В работе Haller I. и
Nedevschi S. предложены две методологии разработки аппроксимирующих функций,
учитывающих особенности функций. По результатам экспериментов точность
идентификации пикселов возрастает до 5 раз по сравнению с существующими
методами. Применяя аналогичный подход для алгоритма КАУС, теоретически можно
повысить его разрешение по глубине до уровня контроллера Microsoft Kinect без
увеличения разрешения изображений или величины стереобазы.
20
В данном исследовании выявлено свойство контекстной зависимости функций
сравнения опорных областей. С одной стороны, оно определяет сравнительно
большую точность, чем у контекстно-независимых функций. С другой стороны оно
же затрудняет оптимизацию вычисления функций. Дальнейшие исследования могут
быть направлены на разработку контекстно-зависимой функции сравнения опорных
областей, сочетающей в себе как высокую точность, так и возможность оптимизации
вычислений.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
Публикации в изданиях, рекомендованных ВАК
1
Гузик В.Ф. Статистический метод оптимизации локальных алгоритмов
установления пиксельных соответствий на стереопарах / В.Ф. Гузик,
А.В.Чумаченко // Известия высших учебных заведений. Северо-Кавказский
регион. Серия: Технические науки. 2011. – № 4. – С. 20-25.
2
Чумаченко А.В. Оптимизация вычисления SAD для задачи восстановления
рельефа по изображениям стереопар в высокопроизводительных системах
стереозрения / А.В. Чумаченко // Известия ЮФУ. Технические науки. 2013. –
№ 3 (140). – С. 89-96.
3
Гузик В.Ф. Метод оценки диспаритета стереопар / В.Ф.Гузик, А.В.Чумаченко //
Известия ЮФУ. Технические науки, 2014. – №5 (154). – С. 229-234.
Публикации в других изданиях
4
Гузик В.Ф. Алгоритм поиска соответственных точек на стереопарах / В.Ф.
Гузик, А.В.Чумаченко // Материалы VII Всероссийской научной конференции
молодых ученых и аспирантов «Информационные технологии, системный
анализ и управление». – Таганрог: Изд-во ТТИ ЮФУ, 2009 – С. 99-105.
5
Чумаченко А.В. Алгоритм многокритериальной сегментации изображений для
решения задачи совмещения стереопар / А.В.Чумаченко // Материалы III
Всероссийской научной конференции молодых ученых, аспирантов и
студентов «Современные технологии, естествознание, педагогика». Том 1. –
Элиста, 2014 – С. 57-62.
В работах, написанных в соавторстве, личный вклад автора состоит в
следующем: в [1] проведен анализ существующих алгоритмов установления
пиксельных соответствий на стереопарах, сформулированы основные проблемы
локальных алгоритмов и разработан метод их статистической оптимизации,
реализована программная модель метода, проведены эксперименты; в [3] разработан
метод оценки границ значений диспаритетов для всей стереопары в целом и
принципы локализации оценок значений диспаритета в пределах выделенных
фрагментов изображения; в [4] проведен анализ существующих подходов
установления пиксельных соответствий на стереопарах.
Соискатель
Чумаченко А.В.
1/--страниц
Пожаловаться на содержимое документа