Применение критериев согласия при оценивании плотности вероятности в ортогональных базисах




Скачать 229.62 Kb.
Дата02.04.2016
Размер229.62 Kb.
УДК 001.891.573
СЕРПОВСКАЯ Е.Е., АБОЛМАЗОВА Н.В., ДЕГТЯРЕВА О.А.

(СГАУ, г. Самара)


ПРИМЕНЕНИЕ КРИТЕРИЕВ СОГЛАСИЯ ПРИ ОЦЕНИВАНИИ ПЛОТНОСТИ ВЕРОЯТНОСТИ В ОРТОГОНАЛЬНЫХ БАЗИСАХ
В статье рассматриваются критерии согласия Мизеса и Колмогорова для оценки качества аппроксимации. Проведены исследования зависимости значений статистики критериев согласия от числа слагаемых в аппроксимирующей сумме для законов распределения Вейбулла, Рэлея, в базисах Лагерра, Дирихле, Лежандра, а также выявлено с какой доверительной вероятностью принимается гипотеза о согласованности оценки с выборкой по обоим критериям.

Введение

Для аппроксимации гладких плотностей вероятности применяется разложение по ортогональному ряду. Лучшим критерием оценки качества является требование минимума погрешности восстановления теоретической кривой. Однако это возможно только при известном теоретическом законе распределения [2]. Но в большинстве случаев такая информация недоступна. Необходим другой способ восстановления. Как правило, для проверки качества оценивания плотности вероятности применяются критерии согласия.

Обычно сущность проверки гипотезы [3] о функции распределения экспериментальных данных заключается в следующем: имеется выборка фиксированного объема и оценка, построенная по этой выборке; необходимо определить степень согласованности оценки плотности вероятности с выборочными данными. Оценку можно считать приемлемой, если она не противоречит эмпирическим данным (выборке).

Предлагаемый доклад посвящен проверке согласованности оценки с выборкой с использованием критериев Мизеса и Колмогорова1.



Критерий Колмогорова

Пусть – эмпирическая функция распределения для выборки объема N, – модельная функция распределения, построенная по оценке плотности распределения , известная полностью, то есть не зависящая от неизвестных параметров.

Статистикой Колмогорова является статистика , где .

Для практического использования критерия Колмогорова статистика представляется в виде:, где – i-тое значение кумулятивной кривой; – значение модельной функции распределения в i-той точке вариационного ряда.

Для проверки гипотезы о том, что является функцией распределения генеральной совокупности:

1) Строятся полигон частот и кумулятивная кривая. Проводится аппроксимация полигона ортогональными функциями, рассчитываются статистические параметры аппроксимации . Затем рассчитываются значения модельной функции распределения в точках вариационного ряда.

2) для выборки, по которой построена кумулятивная кривая, необходимо сравнить предельное значение статистики для заданного , полученного из таблицы квантилей [1], с величиной критической статистики, вычисленной по формуле (1).

Если , то гипотеза о том, что является функцией распределения генеральной совокупности, а следовательно, оценка плотности вероятности согласуется с выборкой, принимается.

Для критерия Колмогорова были проведены исследования статистики Колмогорова для распределения Вейбулла в базисе Лежандра (при значениях параметров Клев=4, Кправ=4, αлев=1, αправ=1) и распределения Релея в базисе Лагерра (при значениях параметров Клев=10, Кправ=10, αлев=0,8, αправ=0,8).

Была выбрана оценка, наиболее близкая к теоретической кривой, построенная по одной выборке, сгенерированы 30 новых выборок. Задача состояла в том, чтобы определить, согласуется ли оценка с каждой из этих выборок для двух уровней значимости α=0,05 и α=0,01.

Если 95% значений статистики D не превышают значение критической статистики =1,36 (для случая α=0,05), то гипотеза о том, что оценка согласуется с выборкой с доверительной вероятностью 0,95, принимается. Рассуждая аналогичным образом, необходимо сделать вывод и для случая α=0,01.

Результаты экспериментов приведены в таблицах 1 и 2, где «+» означает, что оценка согласуется с выборкой, «-» – не согласуется. Внизу таблицы вычислена процентная доля случаев согласованности оценки с выборкой.

На основании приведенных результатов в таблице 1 можно сделать выводы, что гипотеза о согласованности оценки с выборкой по критерию Колмогорова, принимается:

– при объёме выборки N=10000 с доверительной вероятностью 0,95;

– при N=2000 и N=10000 с доверительной вероятностью 0,99.

На основании приведенных результатов в таблице 2 можно сделать выводы, что гипотеза о согласованности оценки с выборкой по критерию Колмогорова, принимается:

– при объёме выборки N=400, N=2000 и N=10000 с доверительной вероятностью 0,95;

– при N=2000 и N=10000 с доверительной вероятностью 0,99.


Т а б л и ц а 1

Критическая статистика Колмогорова

для распределения Вейбулла в базисе Лежандра

(при значениях параметров К=8, αлев=1, αправ=1)



N=400

N=2000

N=10000

D

α= 0,05=1.36

α= 0,01=1.63

D

α= 0,05=1,36

α= 0,01

=1,63

D

α= 0,05

=1,36

α= 0,01

=1,63

1

2,4144

-

-

0,6321

+

+

1,2603

+

+

2

2,5908

-

-

1,1911

+

+

0,8877

+

+

3

1,5445

-

-

1,0088

+

+

1,2366

+

+

4

1,3799

-

+

1,6278

-

+

1,3199

+

+

5

2,1785

-

-

0,6194

+

+

1,1147

+

+

6

1,2204

+

+

1,2534

+

+

1,0254

+

+

7

1,9184

-

-

0,8944

+

+

1,1951

+

+

8

2,7329

-

-

1,3880

-

+

1,2142

+

+

9

2,9867

-

-

0,5082

+

+

1,0733

+

+

10

1,2751

+

+

1,2490

+

+

1,2608

-

+

11

2,0561

-

-

0,6928

+

+

1,2846

+

+

12

1,9769

-

-

1,7172

-

-

1,3411

+

+

13

1,4324

-

+

1,5033

-

+

0,9867

+

+

14

2,5908

-

-

0,8201

+

+

1,0607

+

+

15

1,5445

-

+

1,1208

+

+

1,1629

+

+

16

1,6065

-

+

0,6712

+

+

1,2782

+

+

17

1,2047

+

+

0,6660

+

+

1,0989

+

+

18

1,8755

-

-

1,1927

+

+

1,1029

+

+

19

1,7475

-

-

1,1555

+

+

1,0547

+

+

20

1,5957

-

+

0,9645

+

+

0,8076

+

+

21

1,8881

-

-

0,9168

+

+

0,9861

+

+

22

1,8579

-

-

1,2250

+

+

0,7635

+

+

23

1,2859

+

+

0,8297

+

+

1,2793

+

+

24

2,4441

-

-

1,5591

-

+

1,3559

+

+

25

2,0160

-

-

0,5890

+

+

1,0456

+

+

26

1,9413

-

-

0,7950

+

+

1,0887

+

+

27

1,4454

-

+

0,5262

+

+

0,8769

+

+

28

2,0642

-

-

0,8309

+

+

0,7867

+

+

29

1,6688

-

-

0,5201

+

+

1,3210

+

+

30

2,3854

-

-

0,7370

+

+

0,9989

+

+







13,3%

36,6%




83,3%

100%




96,6%

100%

Т а б л и ц а 2



Критическая статистика Колмогорова

для распределения Вейбулла в базисе Дирихле и Лагерра

(при значениях параметров К=20, αлев=0,8, αправ=0,8)

Базис

N=400

N=2000

N=10000

α= 0,05

= 1,36


α= 0,01

= 1,63

α= 0,05

=1,36


α= 0,01

= 1,63

α=

0,05


= 1,36


α= 0,01

= 1,63

Лагерра

100%

100%

100%

100%

100%

100%

Дирихле

30%

33%

100%

100%

100%

100%

Т а б л и ц а 3



Критическая статистика Колмогорова

для распределения Рэлея в базисе Лагерра

(при значениях параметров К=20, αлев=0.8, αправ=0,8)


Базис

N=400

N=2000

N=10000

α= 0,05

= 1,36


α= 0,01

= 1,63

α= 0,05

=1,36


α= 0,01

= 1,63

α=

0,05


= 1,36


α= 0,01

= 1,63

Лагерра

83,3%

96,6%

96,6%

96,6%

96,6%

96,6%

Т а б л и ц а 4



Критическая статистика Колмогорова

для распределения Рэлея в базисе Дирихле и Лежандра

(при значениях параметров К=20, αлев=0.8, αправ=0.8)

Базис

N=400

N=2000

N=10000

α= 0,05

= 1,36


α= 0,01

= 1,63

α= 0,05

=1,36


α= 0,01

= 1,63

α=

0,05


= 1,36


α= 0,01

= 1,63

Дирихле

90,0%

96,6%

96,6%

100%

100%

100%

Лежандра

96,6%

100%

100%

100%

100%

100%

Из проведенных исследований можно сделать вывод, что применение критерия согласия Колмогорова нецелесообразно при малых объёмах выборки (N=400) для распределения Вейбулла в базисе Дирихле и Лежандра.

Можно использовать предельное значение статистики из таблицы квантилей для заданного для установления доверительных границ для непрерывной функции распределения. Какова бы не была истинная функция распределения , можно записать:

, где – значение .

Таким образом, доверительная область представляет собой полосу вокруг выборочной функции распределения , и с вероятностью истинная функция лежит целиком внутри этой полосы.

Были построены графики, представленные на рисунках 1,2 для распределения Вейбулла в базисе Дирихле (при значениях параметров Клев=4, Кправ=4, αлев=1, αправ=1) и распределения Вейбулла в базисе Дирихле (при значениях параметров Клев=10, Кправ=10, αлев=1, αправ=1).

Линия 1 на графике обозначает функцию распределения (ФР) оценки плотности вероятности, линия 2 – кумулятивная кривая, пунктир – полоса вокруг функции распределения для случая =1,36 (уровень значимости 0,05).







Рисунок 1 – Полоса , кумулятивная кривая и ФР оценки для случая, когда гипотеза не принимается

Рисунок 2 – Полоса , кумулятивная кривая и ФР оценки для случая, когда гипотеза принимается

На рисунке 1 видно, что кумулятивная кривая выходит за пределы коридора , что означает, что гипотеза о согласованности оценки с выборкой по критерию Колмогорова с вероятностью 1- (т.е. 0,95) не принимается. Аналогично из рисунка 2 следует, что гипотеза о согласованности оценки с выборкой по критерию Колмогорова с вероятностью 1 - (т.е. 0,95) принимается, т.к. кумулятивная кривая проходит внутри полосы .

Благодаря описанному инструменту мы можем проводить исследования о согласованности оценки с выборкой по критерию Колмогорова, не прибегая к вычислениям, основываясь на полученных графиках.

Если критерий не принимает гипотезу о согласованности выборки с оценкой, то это не значит, что эту оценку нельзя использовать в дальнейшем. Для объективности рассмотрения гипотезы о согласованности конкретной оценки наряду с критерием согласия Колмогорова стоит использовать более строгие критерии.

Критерий Мизеса

Пусть – некоторая модельная функция распределения, не совпадающая с эмпирической функцией . Критерий Колмогорова хорошо разделяет выборки (имеет большую мощность) из генеральных совокупностей с теоретическими функциями распределения и , если значение || достаточно велико хотя бы на малом интервале распределения x. Встречается и обратная ситуация, когда || мало, но постоянно на достаточно большом интервале изменения x. В этом случае естественно воспользоваться каким–либо интегральным расстоянием, например расстоянием .

Статистика критерия задается выражением(x,…,x)=N, где x,…,x– вариационный ряд; N – объем выборки; – модельная функция распределения построенная по оценке плотности ; – эмпирическая функция распределения для выборки объема N.

Если , то гипотеза о том, что является функцией распределения генеральной совокупности, а, следовательно, оценка плотности вероятности согласуется с выборкой, принимается.

Для критерия Мизеса были проведены исследования, аналогичные исследованиям целесообразности применения критерия Колмогорова. Работа проводилась с распределением Вейбулла в базисе Лагерра (при значениях параметров Клев=6, Кправ=12, αлев=4, αправ=3) и распределением Релея в базисе Лежандра (при значениях параметров Клев=3, Кправ=3, αлев=0,3, αправ=0,3).

Была выбрана оценка, наиболее близкая к теоретической кривой [2], построенная по одной выборке, сгенерированы 30 новых выборок. Задача состояла в том, чтобы определить можно ли оценку, построенную по одной выборке, считать согласованной с другими выборками для двух уровней значимости α=0,05 и α=0,01.

Если 95% значений критической статистики ω2 не превышают предельное значение статистики ω2α=0,46 (для случая α=0,05) [1], то гипотеза о том, что оценка согласуется с выборкой с доверительной вероятностью 0,95, принимается. Рассуждая аналогичным образом, необходимо проверить согласованность и для случая α=0,01.

Результаты экспериментов приведены в таблицах 1 и 2. Для каждого из базисов (Лагерра, Дирихле, Лежандра) вычислена процентная доля случаев согласованности оценки с выборкой.

Т а б л и ц а 5

Критическая статистика Мизеса для распределения Вейбулла


Базис

N=400

N=2000

N=10000

α= 0,05

ω2α =0,46



α= 0,01

ω2α =0,74



α= 0,05

ω2α =0,46



α= 0,01

ω2α =0,74



α= 0,05

ω2α =0,46



α= 0,01

ω2α =0,74



Лагерра

26,6%

66,6%

86,6%

100%

96,6%

100%

Дирихле

43,3%

46,6%

96,6%

100%

100%

100%

Лежандра

36,6%

53,3%

83,3%

100%

96,6%

100%

На основании приведенных результатов в таблице 1 можно сделать выводы, что гипотеза о согласованности оценки с выборкой по критерию Мизеса для распределения Вейбулла в базисе Лагерра, принимается:

– при объёме выборки N=10000 с доверительной вероятностью 0,95;

– при N=2000 и N=10000 с доверительной вероятностью 0,99.

Т а б л и ц а 6



Критическая статистика Мизеса для распределения Рэлея

Базис

N=400

N=2000

N=10000

α= 0,05

ω2α =0,46



α= 0,01

ω2α =0,74



α= 0,05

ω2α =0,46



α= 0,01

ω2α =0,74



α= 0,05

ω2α =0,46



α= 0,01

ω2α =0,74



Лагерра

43,3%

50%

60%

76,6%

100%

100%

Дирихле

36,6%

46,6%

80%

100%

96,6%

100%

Лежандра

76,6%

96,6%

93,3%

100%

96,6%

100%

На основании приведенных результатов в таблице 2 можно сделать выводы, что гипотеза о согласованности оценки с выборкой по критерию Мизеса для распределения Рэлея в базисе Лежандра, принимается:

– при объёме выборки N=10000 с доверительной вероятностью 0,95;

– при N=2000 и N=10000 с доверительной вероятностью 0,99.

На практике не всегда есть возможность получить большое количество наборов данных для построения оценки. Чаще всего имеется лишь одна единственная выборка, по ней и нужно получить оценку. Для выбора оценки, «наилучшим» образом описывающей выборку, необходимо определить число слагаемых в аппроксимирующей сумме, превышать которое не имеет смысла, поскольку это не приближает оценку к истинной кривой.

Исследуем зависимость значений статистики критериев согласия от числа слагаемых в аппроксимирующей сумме k. Для этого для одной и той же выборки при фиксированном значении масштабирующего коэффициента строим оценки, изменяя значение k, и определяем согласуются ли полученные оценки с выборкой.

На рисунке 1 изображены результирующие графики описанного выше исследования для закона распределения Вейбулла в базисе Дирихле (для значений αлев=1, αправ=1) и закона распределения Рэлея в базисе Лагерра (для значений αлев=3, αправ=3).







критерий Колмогорова

критерий Мизеса

закон распределения Вейбулла в базисе Дирихле





критерий Колмогорова

критерий Мизеса

закон распределения Рэлея в базисе Лагерра




Рисунок 3 – График зависимости значений статистики критериев согласия

от числа слагаемых в аппроксимирующей сумме k


Из рисунка 1 следует, что для закона распределения Вейбулла в базисе Дирихле достаточно брать k=8, для закона распределения Рэлея в базисе Лагерра – k=9. Гипотеза о согласованности оценки с выборкой по обоим критериям при этом значении принимается с доверительной вероятностью 0,95.

Заключение

Выбор критерия согласия проверки гипотезы относительно произволен. Разные критерии могут давать различные выводы о справедливости гипотезы (например, в ряде случаев критерий Колмогорова менее строг), окончательное заключение в таком случае принимается на основе априорной информации и критерия оптимальности (минимума расчетов, классификации закона, выбора базиса, простоты расчетов, объёма выборки). Точно также нет однозначных рекомендаций по выбору уровня значимости.

Поскольку формируемые оценки являются многопараметрическими, то для выделения приемлемых можно воспользоваться двусторонним критерием , так как по нему оценка плотности бракуется не только тогда, когда различия между оценкой и полигоном значительны, но и тогда, когда оценка слишком точно его аппроксимирует. Использование данной оценки планируется в дальнейших работах.

Текст доклада согласован с научным руководителем.



Дегтярева О.А., к.т.н., доцент кафедры ПС СГАУ.
ЛИТЕРАТУРА

  1. Большев, Л.Н. Таблицы математической статистики // Л.Н. Большев, Н.В. Смирнов – М.: Наука, 1983. – 416 с.

  2. Дегтярева, О.А. Восстановление плотности вероятности методом сглаживания гистограммы в ортогональных базисах. Сборник статей V Международной научно-практической конференции "Научное творчество XXI века" // О.А. Дегтярева, Н.В. Аболмазова, Е.Е. Серповская – Красноярск: Изд. Научно-инновационный центр, 2012. – С. 220-228.

  3. Лемешко, Б.Ю. Непараметрические критерии при проверке сложных гипотез о согласии с распределениями Джонсона // Доклады СО АН ВШ. 2002.// Б.Ю. Лемешко, С.Н.  Постовалов– № 1(5). – С.65–74.



1 Научный руководитель: к.т.н., доцент, кафедра программных систем СГАУ, Дегтярева Ольга Александровна



База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница