close

Вход

Забыли?

вход по аккаунту

( )N ( )n - Информатика и системы управления

код для вставкиСкачать
Информатика и системы управления, 2014, №1(39)
Стохастические системы
УДК 519.7
©2014 г. А.В. Лапко, д-р техн. наук,
В.А. Лапко, д-р техн. наук
(Институт вычислительного моделирования СО РАН, Красноярск),
(Сибирский государственный аэрокосмический университет имени
академика М.Ф. Решетнева, Красноярск)
АНАЛИЗ АППРОКСИМАЦИОННЫХ СВОЙСТВ РЕГРЕССИОННОЙ
ОЦЕНКИ ПЛОТНОСТИ ВЕРОЯТНОСТИ
Рассматривается зависимость аппроксимационных свойств регрессионной
оценки плотности вероятности от объема исходных статистических данных и
параметров процедуры их дискретизации. Обосновывается возможность выбора оптимального количества интервалов дискретизации области значений одномерной случайной величины.
Ключевые слова: плотность вероятности, регрессионная оценка, асимптотические свойства, процедура дискретизации, априорная информация.
Введение
Пусть x i , i = 1, n – выборка из n независимых наблюдений одномерной случайной величины x с неизвестной плотностью вероятности p ( x ) , которая ограничена и непрерывна со всеми своими производными до порядка 2 включительно.
Для условий выборок большого объема n в работах [1, 2] предложена, а в
[3] развита методика синтеза регрессионной оценки плотности вероятности, которая основана на процедуре сжатия исходных статистических данных и использовании непараметрической оценки кривой регрессии [4, 5].
Разобьем область определения p ( x ) на N непересекающихся интервалов
длиной 2β и сформируем множества случайных величин X j , j = 1, N . В качестве характеристик X
j
примем частоту P j попадания случайной величины x в j -й
интервал и его центр z j . На основе полученной информации определим элементы выборки V1 = z j , y j = P j /( 2 β ) , j = 1, N , составленной из центров z j введен-
(
)
ных интервалов и соответствующих им значений оценок y j плотности вероятности. Границы области ∆ изменения случайной величины x априори неизвестны и
определяются минимальным и максимальным значениями исходных статистических данных V = x i , i = 1, n . Поэтому центры интервалов z j , j = 1, N являются
(
)
80
случайными величинами, а учитывая методику разбиения ∆, они имеют равномерный закон распределения p0 ( z ) = (2βN )−1. Объем N полученной выборки V1 может
быть значительно меньше объема n исходных статистических данных V. Наличие
выборки V1 позволяет оценивание плотности вероятности p(x) свести к задаче
восстановления стохастической зависимости в виде кривой регрессии y по x.
В качестве приближения по эмпирическим данным V1 искомой плотности
вероятности p(x) примем статистику [3]
N
x − z j 
−1
j 
~

p ( x ) = c ∑ P Φ
(1)
,
c
j =1


где ядерные функции Φ(u ) удовлетворяют условиям [6, 7]:
Φ(u ) = Φ(−u ), 0 ≤ Φ(u) < ∞ ,
2
∫ Φ(u ) du = 1, ∫ u Φ(u ) du = 1 ,
m
∫ u Φ(u ) du < ∞ при 0 ≤ m < ∞ .
Здесь и далее бесконечные пределы интегрирования опускаются.
Коэффициенты размытости с = c(N) ядерных функций в выражении (1)
убывают с ростом количества N интервалов дискретизации области определения
плотности вероятности p(x), что является необходимым условием асимптотической сходимости оценок типа непараметрической регрессии (1) [4, 5]. С учетом
зависимости N от объема n исходных данных V в конечном итоге коэффициент
размытости убывает с ростом n.
В настоящей работе на основе результатов исследования асимптотической
сходимости регрессионной оценки плотности вероятности проводится анализ зависимости ее аппроксимационных свойств от объема исходных данных и параметров процедуры их дискретизации. Данное исследование имеет важное значение при синтезе непараметрических алгоритмов распознавания образов [8 – 17],
построении моделей стохастических зависимостей [4, 5, 18 – 20], решении задач
проверки статистических гипотез о распределениях случайных величин [21 – 28].
Асимптотические свойства регрессионной оценки плотности вероятности
Исследуем асимптотические свойства регрессионной оценки плотности вероятности (1), представленной в виде
p ( x ) = (nc )
−1
 x j − zi   x − zi 
Φ
,
∑ ∑ h



β
c
i =1 j =1 
 

N
n
(2)
где индикаторные функции
j
i

 x j − z i  1 , если x − z ≤ β
=
h

β

 0 , если x j − z i > β

(
определяют принадлежность элементов выборки V = x j , j = 1, n
(z
i
)
)
интервалам
± β , i = 1, N .
В отличие от (1) в ее модификации (2) в явном виде присутствуют парамет-
81
ры процедуры дискретизации β , N и объем n исходных статистических данных.
Поэтому в результате анализа статистики (2) может быть получено соответствующая ей асимптотическое выражение среднеквадратического отклонения
W2 (c , N ) , зависящее от коэффициента размытости ядерных функций регрессионной оценки плотности (2) и количества интервалов дискретизации области изменения случайной величины.
Используя методику аналитического исследования непараметрических статистик, предложенную в работе [7] и развитой в статьях [29 – 38], вычислим
 x j − zi 
 x − zi 
1 N n
j
j
 p x dx Φ
 p0 z i dz i =
M ( p ( x )) =
∑ ∑ ∫ ∫ h 
 c 
n c i =1 j =1  β 


( )
=
( )
v −t
N
x−t
h
 p(v ) dv Φ
 p0 (t ) dt ,
∫
∫
c
 c 
 β 
(3)
где M – знак математического ожидания; p0 (t ) = (2β N )−1 – плотность вероятности распределения центров интервалов дискретизации.
Тогда математическое ожидание (3) перепишется в виде
v −t
x−t
M ( p ( x )) = (2 β c )−1 ∫ ∫ h 
(4)
 p(v ) dv Φ
 dt .
 c 
 β 
Проведем в выражении (4) замену переменных v = βu + t , t = x − cw и, разлагая функцию p ( x − cw + β u ) в ряд Тейлора в точке x , получим
2


1
−
(
)
β
u
cw
(
1
)
M ( p ( x )) ≈ ∫ ∫ h (u ) Φ(w) ×  p ( x ) + (βu − cw) p ( x ) +
p (2 ) ( x ) du dw,


2
2


где p(2)(x) – вторая производная функции p(x) по x.
Отсюда, с учетом свойств ядерной Φ(w) и индикаторной h (u ) функций, запишем асимптотическое выражение
β 2 3 + c 2 (2 )
M ( p( x )) ~ p( x ) +
p (x ).
(5)
2
Определим асимптотические свойства квадратического отклонения
M ( p( x ) − p( x ))2 = M p 2 ( x ) − 2 p( x ) M ( p ( x )) + p 2 ( x ) .
(6)
Следуя ранее использованной технологии преобразований, вычислим
(
)
 1 n  x i1 − z i   x − z i
Φ 
M p 2 ( x ) = 2 ∑ M ∑ h
c i =1  n i1=1  β   c
(
)
1
N
2

 +


2
  1 n  x i1 − z i   x − z i   
Φ 
   = F1 ( x ) + F2 ( x ) .
+ 2 ∑ ∑  M ∑ h




c i =1 j=1  n i1=1  β   c   
j≠ i
1
N
N
Пренебрегая величинами малости
0 β 2 nc , 0(c n ) , 0(β c ) , 0(β c )
и выше, нетрудно показать, что
(
)
82
(7)
Φ (u ) p ( x ) 2 β 2
2
F1 ( x ) ~
+
p ( x ) Φ (u ) ,
nc
c
2
где Φ (u ) = ∫ Φ 2 (u ) du .
Осуществим преобразование второй составляющей (7), асимптотическое
выражение которой представляется в виде
При достаточно больших n имеем
2
Φ (u ) p ( x )
N
2
F2 ( x ) ~
Φ(u ) p( x ) −
+
nc
nc
2
β
+ p ( x ) + p ( x ) p (2 ) ( x ) 
2
2
2

(
p ( ) ( x ))
+
2
2
c4 .
 3 +c 
4


На основе F j ( x ), j = 1, 2 сформируем асимптотическое выражение для (7)
(
)
M p 2 (x ) ~
(p ( ) (x ))
+
2
β2

2β 2
2
p ( x ) Φ(u ) + p 2 ( x ) + p( x ) p (2 ) ( x ) 
+ c 2  +
c
 3

2
N
2
(8)
p( x ) Φ (u ) .
4
nc
С учетом (5) при достаточно больших объемах статистических данных второе слагаемое квадратического отклонения (6) запишется как
β2

− 2 p1 ( x ) M ( p ( x )) ~ −2 p 2 ( x ) − p( x ) p (2 ) ( x ) 
+ c 2  .
(9)
3


Тогда, подставляя результаты (8), (9) в (6), получим асимптотическое выражение для квадратического отклонения
c4 +
M ( p ( x ) − p( x ))
2
(
)
2β 2
N
p (2 ) ( x ) 4
2
2
~
p ( x ) Φ (u ) +
Φ (u ) p( x ) +
c .
c
nc
4
2
(10)
Из анализа выражения (10) следует, что при выполнении условий β → 0 ,
с
N
β → 0, c → 0 и
→ 0 (либо n c β → ∞ ) при n → ∞ статистика (2) обладает свойстnc
вом сходимости в среднеквадратическом, а с учетом ее асимптотической несмещенности (5) является состоятельной.
Исследование аппроксимационных свойств p ( x )
Определим оптимальное значение коэффициента размытости
1
2 5

 2∆ Φ (u ) 2 p( x ) 
c =

2


N p (2 ) ( x )


ядерных функций статистики (1) из условия минимума выражения
83
(11)
M ∫ ( p ( x ) − p( x ))2 dx ~
2
с 4 (2 )
2∆
2
2
p ( x ) Φ(u ) +
p (x ) .
Nc
4
Здесь приняты следующие обозначения:
(12)
~
p( x ) = ∫ p 2 ( x ) dx ,
2
(
)
p (2 ) ( x ) = ∫ p (2 ) ( x ) dx .
Подставим оптимальное значение коэффициента размытости (11) в критерий (12), полученный путем интегрирования по x выражения (10). В результате
имеем
2
(
2
)
1
5


p (2 ) ( x )   3
 Φ (u )
N2

2 45
(
)
∆
p
x
+
.
(13)
W2 ( N ) = 
×

2
15 
4
2
2
N


 
n ∆ p( x )



Пусть восстанавливаемая плотность вероятности по выборке V имеет вид
 x2 
1
p(x ) =
exp −  ,
(2π )1 2  2 
тогда значения
2
1
3
2
p( x ) =
, p (2 ) ( x ) =
, а ∆ = 6.
8 π
2 π
В качестве ядерной функции Φ(u ) будем использовать оптимальное ядро
Епанечникова [7]
 3
3u 2

−
, если u < 5
Φ(u ) =  4 5 20 5
0 ,
если u ≥ 5 ,

для которого
3
2
Φ(u ) =
.
5 5
В данных условиях выражение (13) запишется в виде
2 4
2
(
1
5 
)
(
)
3 2
9
N 2 



.
W2 ( N ) = 
+
10  15 N 4   2 π
n 
При фиксированном объеме n исходных статистических данных зависимость W2 ( N ) от количества N элементов дискретизации интервала значений случайной величины x имеет экстремальный характер (см. рис. 1). Отсюда следует,
что в конкретных условиях синтеза p ( x ) существует количество N интервалов
дискретизации, при котором W2 ( N ) достигает минимального значения. Так, при
n = 100, 200, 300 значения N равняются 13, 18, 23.
84
Рис. 1. Зависимость среднеквадратического отклонения W2(N) от количества N интервалов
дискретизации области значений случайной величины с нормальным законом распределения.
Кривые 1, 2, 3 соответствуют значениям n =100, 200, 300.
Причем с ростом n значения N увеличиваются и сопровождаются снижением среднеквадратического отклонения W2 (N ) , что согласуется с результатами
аналитических исследований. Увеличение W2 ( N ) при N > N объясняется уменьшением статистических данных, используемых при оценивании вероятностей
принадлежности случайных величин принятым интервалам дискретизации. В условиях N < N достоверность оценивания вероятности принадлежности случайных величин интервалам дискретизации увеличивается, но объем N данных при
синтезе оценки плотности вероятности (1) уменьшается. Поэтому ее аппроксимационные свойства снижаются. При больших значениях n наблюдается достаточно
широкий диапазон изменения N, при котором W2(N) изменяется незначительно.
Заключение
Аппроксимационные свойства регрессионной оценки плотности вероятности зависят от объема исходной информации и особенностей процедуры дискретизации области значений случайной величины. Зависимость среднеквадратического отклонения регрессионной оценки от количества интервалов дискретизации
имеет экстремальный характер, что обосновывает возможность нахождения его
оптимального значения. Полученные выводы согласуются с результатами исследований асимптотических свойств регрессионной оценки плотности вероятности
и создают количественную основу сравнения эффективности методов дискретизации интервала значений случайной величины.
Представленные результаты исследований имеют важное значение при решении задач проверки гипотез о распределениях случайных величин и доверительного оценивания плотностей вероятности.
85
ЛИТЕРАТУРА
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
Лапко А.В., Лапко В.А. Непараметрические методики анализа множеств случайных величин
// Автометрия. – 2003. – Т. 39, №1. – С.54-61.
Lapko A.V., Lapko V.A. Nonparametric Methods For Random Variable Set Analysis // Optoelectronics, Instrumentation And Data Processing. – 2003. – Vol. 39, №1. – P.44-50.
Лапко А.В., Лапко В.А. Регрессионная оценка плотности вероятности и ее свойства // Системы управления и информационные технологии. – 2012. – Т. 49, №3.1. – С.152-156.
Лапко А.В., Лапко В.А. Анализ асимптотических свойств многомерной непараметрической
регрессии // Вестник СибГАУ. – 2012. – Т.42, №2. – С.41-44.
Лапко А.В., Лапко В.А. Непараметрические системы обработки неоднородной информации.
– Новосибирск: Наука, 2007.
Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. –
1962. – Vol.33, №3. – P.1065-1076.
Епанечников В.А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. – 1969. – Т.14, №1. – С.156-161.
Лапко В.А., Капустин А.Н. Синтез нелинейных непараметрических коллективов решающих
правил в задачах распознавания образов // Автометрия. – 2006. – Т.42, №6. – С.26-33.
Лапко А.В., Лапко В.А., Ярославцев С.Г. Разработка и исследование гибридных алгоритмов
в задачах распознавания образов // Автометрия. – 2006. – Т.42, №1. – С. 32-39.
Лапко А.В., Лапко В.А. Непараметрические алгоритмы распознавания образов при случайных значениях коэффициентов размытости ядерных функций // Автометрия. – 2007. – Т.43,
№ 5. – С. 47-55.
Lapko A.V., Lapko V.A. Nonparametric pattern recognition algorithms for random values of fuzziness factors of kernel functions // Optoelectronics, Instrumentation and Data Processing. – 2007. –
Vol. 43, №5. – P.425-432.
Лапко А.В., Лапко В.А. Разработка и исследование двухуровневых непараметрических систем классификации // Автометрия. – 2010. – Т. 46, № 1. – С.70-78.
Lapko A.V., Lapko V.A. Development and Investigation of Two-Level Non-Parametric Estimators
// Optoelectronics, Instrumentation and Data Processing. – 2010. – Vol. 46, №1. – P.56-63.
Лапко А.В., Лапко В.А. Синтез структуры семейства непараметрических решающих функций в задаче распознавания образов // Автометрия. – 2011. – Т. 47, № 4. – С.76-82.
Lapko A.V., Lapko V.A. Synthesis of the Structure of a Family of Nonparametric Decision Functions in the Pattern Recognition Problem // Optoelectronics, Instrumentation and Data Processing.
– 2011. – Vol. 47, №4. – P.383-387.
Лапко А.В., Лапко В.А. Коллектив непараметрических решающих функций в двухальтернативной задаче распознавания образов // Системы управления и информационные технологии. – 2009. – Т. 37, №3.1. – С.156-160.
Лапко А.В., Лапко В.А. Непараметрическая оценка уравнения разделяющей поверхности в
условиях больших выборок и ее свойства // Системы управления и информационные технологии. – 2010. – Т. 39, № 1.2. – С.300-304.
Лапко В.А. Синтез и анализ гибридных моделей стохастических зависимостей в условиях
наличия их частного описания // Автометрия. – 2004. – Т.40, №1. – С. 51-59.
Lapko V.A. Synthesis and analysis of hybrid models of stochastic dependencies in the presence of
their partial description // Optoelectronics, Instrumentation And Data Processing. – 2004. – Vol.
40, №1. – P.42-49.
Лапко А.В., Лапко В.А., Варочкин С.С. Коллектив непараметрических регрессий, основанный на принципе декомпозиции обучающей выборки // Вестник СибГАУ. – 2009. – Т. 22,
№1. – С.38-40.
Лапко А.В., Лапко В.А. Применение непараметрического алгоритма распознавания образов в задаче проверки гипотезы о распределениях случайных величин // Системы управления и информационные технологии. – 2010. – Т. 41, №3. – С.8-11.
86
22. Лапко А.В., Лапко В.А. Непараметрические алгоритмы распознавания образов в задаче проверки статистической гипотезы о тождественности двух законов распределения случайных
величин // Автометрия. – 2010. – Т. 46, № 6. – С.47-53.
23. Lapko A.V., Lapko V.A. Nonparametric algorithms of pattern recognition in the problem of testing
a statistical hypothesis on identity of two distribution laws of random variables // Optoelectronics,
Instrumentation and Data Processing. – 2010. – Vol. 46, №6. – P.545-550.
24. Лапко А.В., Лапко В.А. Непараметрические алгоритмы распознавания образов в задаче проверки гипотезы о распределениях случайных величин // Изв. вузов. Приборостроение. –
2011. – Т. 54, № 4. – С.67-72.
25. Непараметрический классификатор и критерий Колмогорова в задаче сравнения эмпирической и теоретической функций распределения одномерной случайной величины // Вестник
СибГАУ. – 2011. – Т. 35, №2. – С.37-40.
26. Лапко А.В., Лапко В.А. Сравнение непараметрических критериев проверки гипотез о распределениях случайных величин // Вестник СибГАУ. – 2011. – Т.37, № 4. – С. 48-52.
27. Лапко А.В., Лапко В.А. Cравнение эмпирической и теоретической функций распределения
случайной величины на основе непараметрического классификатора // Автометрия. – 2012.
– Т. 48, № 1. – С. 45-49.
28. Lapko A.V., Lapko V.A. Comparison of empirical and theoretical distribution functions of a random variable on the basis of a nonparametric classifier // Optoelectronics, Instrumentation and
Data Processing. – 2012. – Vol. 48, №1. – P.37-41.
29. Лапко В.А., Лапко В.А. Гибридные модели стохастических зависимостей // Автометрия. –
2002. – №5. – С.38-48.
30. Lapko A.V., Lapko V.A. Hybrid models of stochastic dependences // Optoelectronics, Instrumentation And Data Processing. – 2002. – №5. – P.33-42.
31. Лапко А.В., Лапко В.А. Анализ асимптотических свойств непараметрической оценки уравнения разделяющей поверхности в двухальтернативной задаче распознавания образов //
Автометрия. – 2010. – Т. 46, № 3. – С.48-53.
32. Lapko A.V., Lapko V.A. Analysis of Asymptotic Properties of Nonparametric Estimate of the Equation of the Separation Surface in a Two-Alternative Problem of Pattern Recognition // Optoelectronics, Instrumentation and Data Processing. – 2010. – Vol. 46, №3. – P.243-247.
33. Лапко А.В., Лапко В.А. Анализ непараметрических алгоритмов распознавания образов в условиях пропуска данных // Автометрия. – 2008. – Т. 44, № 3. – С.65-74.
34. Lapko A.V., Lapko V.A. Analysis of nonparametric pattern recognition algorithms under incomplete data // Optoelectronics, Instrumentation and Data Processing. – 2008. – Vol. 44, №3. – P.6574.
35. Лапко А.В., Лапко В.А., Егорочкин И.А. Непараметрические оценки смеси плотностей вероятности и их применение в задаче распознавания образов // Системы управления и информационные технологии. – 2009. – Т. 35, № 1. – С.60-64.
36. Лапко А.В., Лапко В.А. Непараметрическая оценка плотности вероятности независимых
случайных величин // Информатика и системы управления. – 2011. – № 3(29). – С.118-124.
37. Лапко А.В., Лапко В.А. Асимптотические свойства многомерной непараметрической оценки
уравнения разделяющей поверхности в двухальтернативной задаче распознавания образов
// Системы управления и информационные технологии. – 2010. – Т.39, №1. – С.16-19.
38. Лапко А.В., Лапко В.А. Анализ дисперсии среднеквадратической ошибки аппроксимации
непараметрической оценки плотности вероятности ядерного типа // Информатика и системы управления. – 2012. – №3(33). – С.132-139.
E-mail:
Лапко Александр Васильевич – [email protected];
Лапко Василий Александрович – [email protected]
87
1/--страниц
Пожаловаться на содержимое документа