Исследование тестов на наличие тренда в условиях коррелированности тестируемых данных




Скачать 118.32 Kb.
Дата14.06.2016
Размер118.32 Kb.
ИССЛЕДОВАНИЕ ТЕСТОВ НА НАЛИЧИЕ ТРЕНДА В УСЛОВИЯХ КОРРЕЛИРОВАННОСТИ ТЕСТИРУЕМЫХ ДАННЫХ

Попов И.О., Филаретов Г.Ф.

(ГОУВПО "Московский энергетический институт (технический университет)", Москва, Россия)

В ходе решения целого ряда задач, связанных с анализом случайных процессов (временных рядов), возникает проблема выявления наличия трендовой составляющей. В классической математической статистике для установления факта наличия трендовой систематической составляющей используются специальные непараметрические критерии. В качестве основной предпосылки их использования постулируется независимость отсчетов. Применительно к анализу случайных процессов это означает, что известные критерии, строго говоря, применимы только для процессов типа белого шума. Их свойства для коррелированных процессов практически не изучены.

Целью данной работы является исследование методами имитационного моделирования поведения критериев обнаружения тренда при тестировании коррелированных процессов в условиях малого объема выборки. Исследуются критерии серий, инверсий, поворотных точек и Аббе.

Как известно, вышеперечисленные критерии используются для проверки гипотезы о независимости наблюдений исследуемого временного ряда. Для применения каждого из них необходимо на основе представленных отсчетов вычислить числовое значение статистики критерия, параметры распределения которой в случае независимых отсчетов известны (см. [1] и [2]), и принять решение о возможности появления полученного экспериментального значения в теоретическом распределении. Как правило, для этого задается уровень значимости, по которому вычисляются пороговые значения двусторонней критической области, и полученное экспериментальное значение сравнивается с пороговыми. В случае если рассчитанное значение оказывается вне критической области, то принимается решение в пользу гипотезы о независимости отсчетов с доверительной вероятностью, зависящей от выбранного уровня значимости.

Попадание экспериментального значения в критическую область может являться косвенным признаком наличия тренда в исследуемом ряде наблюдений. Поэтому названные критерии так же могут использоваться для анализа наличия трендовой составляющей. В этом случае рассматриваются две гипотезы: нулевая – о независимости наблюдений, и альтернативная – о наличии тренда. Попадание экспериментально полученного значения в критическую область нулевой гипотезы приводит к выбору в пользу альтернативной гипотезы. Реально тесты дают хорошие результаты в случае отсутствия корреляции отсчетов ряда, на которые наложен тренд, и для сравнительно больших объемов выборки.
Исследование проводилось с использованием ППП Matlab, причем был написан специальный скрипт, позволяющий генерировать тестовые данные и проверять их на наличие тренда с помощью указанных критериев. Для первоначальной проверки качества имитационного моделирования поставлен эксперимент по тестированию процессов типа «белый шум», т.е. при отсутствии корреляции между отсчетами ряда, в условиях отсутствия тренда. Оценки уровня значимости, полученные при длинах реализации в 50, 100, 200, 500 и 1000 отсчетов с помощью каждого из критериев путем усреднения по результатам 25 000 опытов представлены в таблице 1. Теоретический уровень значимости, использованный при проверке гипотез, равен 0,05. В случае адекватности модели оценки должны совпасть с задаваемым значением.

Таблица 1.



Критерий

Длина реализации

50

100

200

500

1000

серий

0,0605

0,0555

0,0562

0,0533

0,0543

инверсий

0,0496

0,0479

0,053

0,0498

0,0473

поворотных точек

0,059

0,055

0,0554

0,0494

0,0515

Аббе

0,05

0,0532

0,0502

0,0492

0,0496

Результаты, полученные в аналогичном эксперименте при тестировании процесса скользящего среднего первого порядка с параметром q, равным 0,5, представлены в таблице 2. Данные в таблице соответствуют оценке вероятности ошибочного решения в пользу наличия тренда. Усреднение производилось по результатам 1 000 опытов.

Таблица 2.



Критерий

Длина реализации

50

100

200

500

1000

серий

0,492

0,777

0,974

1

1

инверсий

0,136

0,135

0,129

0,129

0,136

поворотных точек

0,514

0,797

0,969

1

1

Аббе

0,858

0,988

1

1

1

Сравнивая содержимое таблицы 1 с содержимым таблицы 2, можно отметить, что корреляция отсчетов существенно влияет на результаты тестирования каждым из критериев. Имеет место тенденция к увеличению фиксируемого показателя вплоть до 1 с увеличением значения q, что говорит о высокой вероятности ошибки при использовании рассматриваемых критериев. Для повышения достоверности результатов следует произвести пересчет границ критической области.

При исследовании влияния величины параметра процесса скользящего среднего первого порядка на параметры распределения статистики критерия при длине реализации 50 отсчетов получены графики, представленные на рисунке 1. По оси абсцисс отложено значение q. На рисунке 1 а) по оси ординат откладывается отношение математического ожидания для коррелированного процесса к математическому ожиданию соответствующему процессу типа «белый шум». На рисунке 1 б) значению по оси ординат соответствует аналогичное отношение СКО.





а)



б)

Рис. 1. Характер изменения а) математического ожидания и б) СКО величины критерия от параметра процесса СС(1) для длины реализации 50 отсчетов.

Анализируя полученные графики, можно отметить, что математическое ожидание статистики критерия инверсий практически не изменяется, однако его дисперсия для ряда значений q увеличивается, что отрицательно сказывается на мощности критерия. Следует также отметить незначительное изменение характера кривых с изменением длины реализации, выявленное в результате дополнительного эксперимента. Этот результат позволяет ввести для пересчета параметров распределения множители, зависящие от величины q, которые остаются неизменными для различных длин реализаций.

Для коррекции критериев при работе с коррелированными процессами произведена аппроксимация полученных зависимостей полиномами 3-го порядка. Для критериев серий, поворотных точек и Аббе граничные значения критической области корректируются с учетом смещения математического ожидания статистики критерия. Для критерия инверсий учитывается изменение дисперсии статистики критерия, а изменение математического ожидания полагается пренебрежимо малым.

В результате получены формулы для пересчета граничных значений sl и sr. Для критерия серий: s'r = sr + ms(0,3908q3 – 0,009221q2 – 0,5755q) и s'l = sl + ms(0,3908q3 – 0,009221q2 – 0,5755q). Для критерия инверсий формулы имеют вид: s'r = sr + σs(–0,3947q3 – 0,3207q2 + 0,8763q–1(α/2) и s'l = sl + σs(–0,3947q3 – 0,3207q2 + 0,8763q–1(1 – α/2). Для критерия поворотных точек справедливо: s'r = sr + ms(0,0924q3 – 0,1722q2 – 0,2771q) и s'l = sl + ms(0,0924q3 – 0,1722q2 – 0,2771q). Для критерия Аббе можно записать следующие формулы: s'r = sr + ms(0,6469q3 – 0,01516q2 – 0,9106q) и s'l = sl + ms(0,6469q3 – 0,01516q2 – 0,9106q). В приведенных формулах s'r, s'l, sr, sl – пересчитанные и исходные граничные значения; ms, σs – математическое ожидание и СКО статистики исходного критерия; Ф–1(x) – функция, обратная функции Лапласа; α – уровень значимости; q – значение параметра процесса.

Для анализа качества коррекции критериев описанным способом рассчитывались оценки вероятности ошибки при анализе наличия тренда модернизированными критериями для значений q 0,5 и 0,25 при длине реализации в 50 и 100 отсчетов в условиях отсутствия тренда. Результаты представлены в таблице 4.

Таблица 4.

Критерий

q = 0,5

q = 0,25

N = 50

N = 100

N = 50

N = 100

серий

0,0388

0,0365

0,0385

0,0478

инверсий

0,0493

0,0532

0,0503

0,0498

поворотных точек

0,0314

0,0348

0,0393

0,0416

Аббе

0,0156

0,014

0,0362

0,0338

Для анализа качества диагностирования наличия линейного тренда на фоне процесса скользящего среднего первого порядка проведен следующий эксперимент. На реализацию процесса накладывался монотонный линейно нарастающий тренд, высота подъема которого в конце реализации β изменялась от 0 (соответствует отсутствию тренда) до σ – СКО процесса. Величина параметра процесса варьировалась в интервале от -0,5 до 0,5. Подсчет отношения числа решений в пользу наличия тренда к общему числу опытов для каждой пары β и q дает оценку мощности критерия. Результаты эксперимента для β = σ сведены в таблицу 5.

Таблица 5.



Критерий

q

-0,5

-0,2

0

0,2

0,5

серий

0,0519

0,0692

0,0871

0,0598

0,0802

инверсий

0,3111

0,3895

0,495

0,6658

0,9527

поворотных точек

0,0312

0,0605

0,0592

0,0322

0,0269

Аббе

0,023

0,0692

0,0995

0,1115

0,1038

Анализируя полученные результаты можно отметить, что наименьшую чувствительность к линейному тренду в условиях коррелированности фонового процесса проявляет модифицированный критерий поворотных точек. Наилучшие результаты в этом смысле продемонстрированы для критерия инверсий. Кроме того, можно отметить, что с увеличением модуля q мощность критериев серий, поворотных точек и Аббе уменьшается для малых углов наклона и увеличивается для больших углов. Так же для критерия инверсий можно отметить, что чем больше значение q, тем большую чувствительность к тренду он проявляет.

Аналогичный эксперимент производился для случая синусоидального тренда с амплитудой β, варьировавшейся в интервале от 0 до σ. Результаты для β = σ представлены в таблице 6.



Таблица 6.

Критерий

q

-0.5

-0.2

0

0.2

0.5

серий

0.3002

0.379

0.4947

0.5162

0.7302

инверсий

0.7428

0.8554

0.9329

0.9918

1

поворотных точек

0.0325

0.0628

0.0637

0.0358

0.0246

Аббе

0.2825

0.5341

0.6745

0.8045

0.9294

Анализируя полученные результаты, можно отметить увеличение мощности модифицированных критериев серий, инверсий и Аббе при обнаружении синусоидального тренда в сравнении с линейным трендом. Мощность модифицированного критерия поворотных точек, как и в случае линейного тренда, остается крайне низкой. Наибольшей мощностью обладает критерий инверсий. Можно также отметить уменьшение мощности критериев с увеличением ширины основного пика автокорреляционной функции.
Таким образом, в результате проведенного исследования можно сделать вывод о том, что корреляция тестируемых данных вносит существенную погрешность в результаты тестирования на наличие тренда. Коррелированность отсчетов для процесса скользящего среднего первого порядка ведет к смещению математического ожидания величины критериев серий, поворотных точек и Аббе и к изменению дисперсии величины критерия серий. В ходе исследования предложены модификации рассматриваемых критериев, которые позволяют уменьшить вероятность ошибки, о чем свидетельствуют полученные результаты. Исследование показало, что модифицированные критерии могут применяться для обнаружения монотонных и знакопеременных трендов на фоне коррелированного процесса. Критерий поворотных точек в обоих случаях дает слишком большую вероятность ошибки при обнаружении малозаметных трендов, и применять его для этих целей не рекомендуется. Окончательно для обнаружения тренда на фоне коррелированных данных можно рекомендовать использовать модифицированный критерий инверсий как наиболее чувствительный к появлению указанных видов тренда и обладающий наибольшей мощностью из рассмотренных критериев.

Литература

  1. Айвазян С.А., Енюков И.С., Л.Д. Мешалкин. Прикладная статистика. Том 1. Основы моделирования и первичная обработка данных. Справочное изд. — М.: Финансы и статистика, 1983. Стр. 404 - 407.

  2. Бендат Дж., Пирсол А. Прикладной анализ случайных данных: Пер. с англ. М.: Мир, 1989. Стр. 106 - 109.


База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница