close

Вход

Забыли?

вход по аккаунту

Маршрутная квитанция электронного билета;pdf

код для вставкиСкачать
1101
УДК 519.7
РЕГРЕССИОННАЯ ОЦЕНКА
ПЛОТНОСТИ ВЕРОЯТНОСТИ И ЕЕ
ПРИМЕНЕНИЕ
А.В. Лапко
Институт вычислительного моделирования СО РАН
Россия, 660036, Красноярск, Академгородок, 50, стр. 44
E-mail: [email protected]
В.А. Лапко
Институт вычислительного моделирования СО РАН
Россия, 660036, Красноярск, Академгородок, 50, стр. 44
Сибирской государственный аэрокосмический университет имени академика М.Ф. Решетнева
Россия, 660014, Красноярск, пр. имени газеты «Красноярский рабочий», 31
E-mail: [email protected]
Ключевые слова: плотность вероятности, регрессионная оценка, асимптотические
свойства, методы дискретизации, доверительное оценивание, распознавание образов
Аннотация: Исследуются аппроксимационные свойства регрессионной оценки плотности вероятности, синтез которой основывается на декомпозиции исходных статистических данных и анализе вероятностных характеристик получаемых множеств случайных
величин. Устанавливается зависимость свойств регрессионной оценки плотности вероятности от процедуры дискретизации интервала значений случайной величины. Результаты исследований используются при решении задачи доверительного оценивания плотности вероятности и построении алгоритмов распознавания образов в условиях обучающих выборок большого объема.
1. Введение
Вычислительная эффективность непараметрических алгоритмов обработки информации во многом определяется объемом статистических данных и снижается по мере
его увеличения, что затрудняет построение систем принятия решений в условиях
больших выборок [1-16].
Естественным выходом в подобной ситуации является использование принципов
декомпозиции исходных статистических данных по их объему и технологии параллельных вычислений. С этих позиций предложена и исследована смесь непараметрических оценок плотностей вероятности для одномерных и многомерных случайных величин [17, 18]. Показано, что она имеет значительно меньшую дисперсию по сравнению с
традиционной непараметрической оценкой плотности вероятности типа РозенблаттаПарзена [19]. При этом сокращение времени вычислений сопоставимо с количеством
составляющих смеси непараметрических оценок плотностей вероятности.
Полученные результаты обобщены при оценивании решающей функции в задаче
распознавания образов для условий больших выборок. При этом разработаны двухуровневые непараметрические системы для решения двуальтернативной [12] и многоальтернативной [8] задач классификации, установлены асимптотические свойства оцеXII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
1102
нок их уравнений разделяющих поверхностей для одномерного и многомерного случаев [10].
Перспективное направление «обхода» проблем больших выборок связано с использованием регрессионной оценки плотности вероятности, синтез которой основан на декомпозиции исходных статистических данных и последующего анализа количественных характеристик получаемого множества случайных величин [20].
Цель данной работы заключается в анализе свойств регрессионной оценки плотности вероятности и определении их зависимости от особенностей процедуры декомпозиции статистических данных, что создает методическую основу разработки эффективных алгоритмов обработки информации в условиях больших выборок.
2. Синтез регрессионной оценки
плотности вероятности


Пусть имеется выборка V  x i , i  1 , n из n независимых значений одномерной
случайной величины x с неизвестной плотностью вероятности p  x  .
Разобьем область определения p x  на N непересекающихся интервалов длиной
2 и сформируем множества случайных величин X j , j  1, N . В качестве характеристик X
j
примем частоту P j попадания случайной величины x в j -й интервал и его
центр z j . На основе полученной информации определим элементы выборки
V1  z j , y j  P j /(2 ) , j  1, N , составленной из центров z j введенных интервалов и


соответствующих им значений оценок y j плотности вероятности. Границы области 
изменения случайной величины x априори неизвестны и определяются минимальным
и максимальным значениями исходных статистических данных V  x i , i  1 , n . По-


j
этому центры интервалов z , j  1, N являются случайными величинами, а учитывая
методику разбиения  , имеют равномерный закон распределения p0 z   2N 1 .
Объем N полученной выборки V1 может быть значительно меньше объема n исходных статистических данных V . Наличие выборки V1 позволяет оценивание плотности
вероятности p x  свести к задаче восстановления стохастической зависимости в виде
кривой регрессии y по x .
В качестве приближения по эмпирическим данным V1 искомой плотности вероятности p  x  примем статистику [20]
N
 xzj 
~
,
p x   c 1  P j 

j 1
 c 
которая является непараметрической оценкой условного математического ожидания
(1)
(2)
2 N

 y px , y  dy .

В регрессионной оценке плотности вероятности (1) ядерные функции u  удовлетворяют условиям H :
(u )  (u ), 0  (u)   ,




 (u) du  1,  u
2
 (u ) du  1 .
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
1103
Коэффициенты размытости c  c N  ядерных функций характеризуют область их
определения.
1
p  x  с учетом известного распределения 2 N  центров интервалов
При синтезе ~
z j , j  1, N в выражение (2) подставляется непараметрическая оценка
p x , y  
(3)
1 N  xzj   y yj 
 

 
n c c1 j 1  c   c1 
совместной плотности вероятности p  x , y  .
Свойства статистик типа (3) исследовались в работе [9, 21] и развиты на условия
больших [17] и малых [22] объемов статистических данных.
Интегрируя выражение (2) при

 y yj 
1
Pj
j
j


y

,
y

dy

y
и
 c 
c1 
2
 1 
получим регрессионную оценку плотности вероятности (1).
В многомерном случае x  xv , v  1, k статистика (1) имеет вид

px  
(4)
1
ck
N
k
P
j 1
j

 xv  z vj

  c
v 1 
k

.


3. Асимптотические свойства
регрессионной оценки плотности вероятности
Свойства регрессионной оценки плотности вероятности определяются утверждением [20].
Теорема 1. Пусть при любом x плотность вероятности p x  является непрерывной; ядерные функции  u  удовлетворяют условиям H ; последовательность
c  c N  коэффициентов размытости ядерных функций регрессионной оценки плотности вероятности таковы, что при N   значения c  0 , а Nc   (либо

c
 0 ).
Тогда
смещение
с 2 2 
p x  ,
2
среднеквадратическое отклонение
M  p  x   p x  ~
(5)
M   p x   p  x 2 dx ~ W2 c , N  
с4
2 2
2




p
x
dx

u
du


4
Nc 
2
2 
  p x  dx .
Здесь M - знак математического ожидания, а p 2   x  - вторая производная p x  .
Оптимальное значение коэффициента размытости
(6)

2
2
 2  u  p x 

c 
2

N p 2   x 

1
5




XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
1104
определяется из условия минимума (5). В выражении (6) приняты следующие обозна2


чения:  u     2 u  du , p x    p 2  x  dx , p 2   x    p 2   x  dx .
2
2
2
4. Выбор оптимального количества
интервалов дискретизации
На основе полученных результатов появляется возможность определить аналитическую зависимость интервала дискретизации  от объема n исходных статистических данных V , что актуально не только при синтезе регрессионной оценки плотности
вероятности p  x  (1), но и при проверке гипотезы о тождественности законов распределения случайных величин с использованием критерия Пирсона.
Для этого исследуем асимптотические свойства регрессионной оценки плотности
вероятности (1), представленной в виде
N n  j
x  zi   x  zi 
,

(7)
p  x   nc 1  h
   c 
i 1 j 1 
где индикаторная функция
 x j  z i  1  x j  z i  

h
 0  x j  zi  


 
интервалам
определяет принадлежность элементов выборки V  x j , j  1, n
z



  , i  1, N .
В отличие от (1) в ее модификации (7) в явном виде присутствуют параметры процедуры дискретизации  , N и объема n исходных статистических данных. Поэтому в
результате анализа статистики (7) с использованием предложенной технологии может
быть получена соответствующая ей асимптотическое выражение среднеквадратического отклонения W2 c , N  зависящее от коэффициента размытости ядерных функций
регрессионной оценки плотности (7) и количества интервалов дискретизации области
изменения случайной величины. Подставляя в W2 c , N  оптимальное значение c (6),
получим выражение
i


1
  u  2 4 p 2   x  2  5 


 3
N2

2 45

W2 N   
   px 
,
4
1
5
2
2N


  2
n  px 



минимизация которого по параметру N позволит получить аналитическую зависимость количества N интервалов дискретизации от объема n исходных статистических
данных




N   px  n ,
2
где  - длина интервала изменения значений случайной величины.
Полученная зависимость по виду близка формуле Гаеде и совпадает с ней при оценивании равномерного закона распределения.
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
1105
5. Построение доверительных границ
для плотности вероятности
Особенность структуры статистики (1) позволяет решить проблему доверительного
оценивания плотности вероятности по следующей методике:
 рассчитать доверительные границы P1i , P2i для вероятности P i попадания случайной величины x в i -й интервал при некотором значении коэффициента доверия  ;
 сформировать статистические выборки z i , P1i , i  1, N z i , P2i , i  1, N ;
p1  x  и нижнюю ~
p2  x  доверительные границы регрессионной
 построить верхнюю ~
оценки плотности вероятности
N
xzj 
~
 , v  1, 2 .
pv  x   c 1  Pv j 

c
j 1


По аналогии можно построить доверительные границы для уравнения разделяющей поверхности в задаче распознавания образов и кривой регрессии при восстановлении стохастической зависимости.



6. Синтез непараметрических алгоритмов
распознавания образов
Разработка непараметрических алгоритмов распознавания образов основана на
оценивании байесовского уравнения разделяющей поверхности [3, 4, 10], например, в
случае двух классов
f12 x   p2  x   p1  x 
(8)
между классами 1  x  и  2  x  по обучающей выборке V  ( x i ,  ( x i ), i  1, n) с помощью непараметрических методов статистики. Здесь  ( x i ) – «указания учителя» о принадлежности ситуации x i к одному из двух классов.
Примем в качестве оценок плотностей вероятности x  ( x1 , ..., xk ) в классах 1 ( x)
и  2 ( x) процедуры типа (4). Тогда непараметрическая оценка f12 ( x) (8) представляется выражением
(9)
где
 k

f12 ( x)    cv 
 v1 
1
Nk
k
i 1
v 1
 xv  xvi 
,

c
v


 ( x i ) P i  
i

 ( x i )   1  x i  1 x ,
 1  x   2 x  ;
N k  N1k  N 2k , N1k , N 2k - количество элементов выборки, на основании которых формируются оценки плотностей p1 ( x), p2 ( x) .
Асимптотическую сходимость f12 ( x) нетрудно доказать, используя утверждения
теоремы 1.
Оптимизация непараметрической оценки решающей функции (9) по параметрам
 v , cv , v  1, k осуществляется из условия минимума статистической оценки вероятности ошибки распознавания образов, формируемой по контрольной выборке V1  V .
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
1106
Проводя предварительную нормировку компонент xv , v  1, k относительно их среднего значения, размерность задачи оптимизации можно сократить до двух параметров:
 v   , cv  c, v  1, k .
7. Заключение
Регрессионная оценка плотности вероятности является эффективным средством
обработки статистических данных большого объема. Ее синтез осуществляется путем
декомпозиции исходной информации и анализа количественных характеристик, получаемых множеств случайных величин на основе кривой регрессии. Предлагаемая статистика обладает свойством асимптотической несмещенности и состоятельности.
Полученная аналитическая зависимость количества интервалов дискретизации области изменения значений случайной величины от объема статистических данных и
характеристик восстанавливаемой плотности вероятности.
Структура регрессионной оценки плотности вероятности позволяет на ее основе
решить проблему доверительного оценивания плотности вероятности. Предлагаемый
подход предполагает разбиение области значений случайной величины на непересекающиеся интервалы и последующее доверительное оценивание соответствующих им
вероятностей принадлежностей. На этой основе осуществляется синтез доверительных
границ плотности вероятности.
Синтез непараметрических алгоритмов распознавания образов предполагает оценивание байесовских уравнений разделяющих поверхностей с использованием предложенной регрессионной оценки плотности вероятности.
Представленные результаты исследований имеют важное значении при решении
задач проверки гипотез о распределениях случайных величин, доверительного оценивания плотности вероятности и решающих функций, построении непараметрических
алгоритмов обработки больших массивов данных.
Список литературы
1.
2.
3.
4.
5.
6.
7.
8.
9.
Лапко А.В., Лапко В.А. Непараметрические методики анализа множеств случайных величин // Автометрия. 2003. Т. 39, №1. С. 54-61.
Lapko A.V., Lapko V.A. Nonparametric Methods for Random Variable Set Analysis // Optoelectronics,
Instrumentation And Data Processing. 2003. Vol. 39, No. 1. P. 44-50.
Лапко А.В., Лапко В.А. Непараметрические системы обработки неоднородной информации. Новосибирск: Наука, 2007. 174 с.
Лапко В.А., Капустин А.Н. Синтез нелинейных непараметрических коллективов решающих правил в
задачах распознавания образов // Автометрия. 2006. Т. 42, № 6. С. 26-33.
Лапко А.В., Лапко В.А., Ярославцев С.Г. Разработка и исследование гибридных алгоритмов в задачах распознавания образов // Автометрия. 2006. Т. 42, № 1. С. 32-39.
Лапко А.В., Лапко В.А. Непараметрические алгоритмы распознавания образов при случайных значениях коэффициентов размытости ядерных функций // Автометрия. 2007. Т. 43, № 5. С. 47-55.
Lapko A.V., Lapko V.A. Nonparametric pattern recognition algorithms for random values of fuzziness factors of kernel functions // Optoelectronics, Instrumentation and Data Processing. 2007. Vol. 43, No. 5. P.
425-432.
Лапко А.В., Лапко В.А. Разработка и исследование двухуровневых непараметрических систем классификации // Автометрия. 2010. Т. 46, № 1. С. 70-78.
Lapko A.V., Lapko V.A. Development and Investigation of Two-Level Non-Parametric Estimators // Optoelectronics, Instrumentation and Data Processing. 2010. Vol. 46, No. 1. P. 56-63. DOI:
10.3103/S8756699010010073.
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
1107
10. Лапко А.В., Лапко В.А. Синтез структуры семейства непараметрических решающих функций в задаче распознавания образов // Автометрия. 2011. Т. 47, № 4. С. 76-82.
11. Lapko A.V., Lapko V.A. Synthesis of the Structure of a Family of Nonparametric Decision Functions in the
Pattern Recognition Problem // Optoelectronics, Instrumentation and Data Processing. 2011. Vol. 47, No.4.
P. 383-387. DOI: 10.3103/S8756699011040091.
12. Лапко А.В., Лапко В.А. Коллектив непараметрических решающих функций в двуальтернативной
задаче распознавания образов // Системы управления и информационные технологии. 2009. Т. 37, №
3.1. С. 156-160.
13. Лапко В.А. Синтез и анализ гибридных моделей стохастических зависимостей в условиях наличия
их частного описания // Автометрия. 2004. Т. 40, № 1. С. 51-59.
14. Lapko V.A. Synthesis and analysis of hybrid models of stochastic dependencies in the presence of their
partial description // Optoelectronics, Instrumentation And Data Processing. 2004. Vol. 40, No.1. P. 42-49.
15. Лапко А.В., Лапко В.А. Непараметрические алгоритмы распознавания образов в задаче проверки
статистической гипотезы о тождественности двух законов распределения случайных величин // Автометрия. 2010. Т. 46, № 6. С. 47-53.
16. Lapko A.V., Lapko V.A. Nonparametric algorithms of pattern recognition in the problem of testing a
statistical hypothesis on identity of two distribution laws of random variables // Optoelectronics,
Instrumentation and Data Processing. 2010. Vol. 46, No.6. P. 545-550. DOI: 10.3103/S8756699011060069.
17. Лапко А.В., Лапко В.А., Егорочкин И.А. Непараметрические оценки смеси плотностей вероятности и
их применение в задаче распознавания образов // Системы управления и информационные технологии. 2009. Т. 35, № 1. С. 60-64.
18. Лапко А.В., Лапко В.А. Синтез структуры смеси непараметрических оценок плотности вероятности
многомерной случайной величины // Системы управления и информационные технологии. 2011. Т.
43, № 1. С. 12-15.
19. Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. Vol. 33,
No. 3. P. 1065-1076.
20. Лапко А.В., Лапко В.А. Регрессионная оценка плотности вероятности и ее свойства // Системы
управления и информационные технологии. 2012. Т. 49, №3.1. С. 152-156.
21. Епанечников В.А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14, № 1. С. 156-161.
22. Лапко А.В., Лапко В.А., Шарков М.А. Непараметрические методы обнаружения закономерностей в
условиях малых выборок // Изв. вузов. Приборостроение. 2008. Т. 51, № 8. С. 62-67.
23. Лапко А.В., Лапко В.А. Оптимальный выбор количества интервалов дискретизации области изменения одномерной случайной величины при оценивании плотности вероятности // Измерительная техника. 2013. № 7. С. 24-27.
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
1/--страниц
Пожаловаться на содержимое документа