Публикация научных статей.
Вход на сайт
E-mail:
Пароль:
Запомнить
Регистрация/
Забыли пароль?
Научные направления
Поделиться:
Статья опубликована в №63 (ноябрь) 2018
Разделы: Математика
Размещена 11.11.2018. Последняя правка: 09.11.2018.
Просмотров - 540

Робастный метод коррелированной выборки

Некрасов Сергей Александрович

д.т.н.

Южно-Российский государственный политехнический университет

профессор

Шестопал О.В., аспирант кафедры прикладной математики Южно-Российского государственного политехнического университета имени М.В.Платова


Аннотация:
Описана технология робастного варианта метода коррелированных процессов применительно к задачам статистического моделирования с приближённо заданными или случайными параметрами. Рассмотрены примеры, иллюстрирующие вычислительные качества метода.


Abstract:
The technology of robust variant of the method of correlated processes is described in relation to the problems of statistical modeling with approximately given or random parameters.The examples illustrating the computational qualities of the method are considered.


Ключевые слова:
статистика; оценки; регрессия; робастность

Keywords:
statistics; robust estimators; regression


УДК 519.6 : 621.316


Робастный метод коррелированной выборки

Для сокращения времени на получение статистических оценок вероятностных характеристик с заданной точностью предложено много методов: метод расслоенной выборки, метод существенной выборки, метод коррелированной выборки, метод выборки с «оценкой по отношению», метод случайных квадратурных формул, метод выделения главной части [1 - 3]. В основном повышение эффективности в этих методах достигается за счёт понижения дисперсии статистической оценки. В методе расслоенной выборки повышение точности оценки достигается за счёт выбора наибольшего числа случайных величин из тех областей пространства значений случайных величин, где результаты моделирования имеют наибольший разброс. При реализации расслоенной выборки пространство значений случайных величин разбивается на несколько попарно непересекающихся подмножеств (слоев) и из каждого слоя берется простая случайная выборка фиксированного объема. Использование специального вида функции для вычисления вероятностной характеристики позволяет гарантировать несмещенность ее оценки, а объемы выборок в слоях определяются так, чтобы обеспечить дисперсию оценки, меньшую, чем при простой случайной выборке.

Метод существенной выборки по идее близок к методу расслоенной выборки, но здесь выбор точек регулируется не заданием числа точек в областях, а специальной функцией плотности вероятностей.

Одним из универсальных подходов к уменьшению дисперсии оценок является метод случайных квадратурных формул, представляющий собой обобщение обычного метода Монте-Карло.

Выборка с «оценкой по отношению» так же, как и корреляционная выборка, требует для своей реализации функцию, хорошо аппроксимирующую оператор исходной модели с известными значениями вероятностных характеристик.

Эффективность ряда вариантов метода расслоенной выборки также существенно зависит от «близости» упрощённой и исходной модели исследуемого процесса.

Таким образом, технология наиболее употребительных методов ускорения статистического моделирования предполагает построение некоторой упрощенной модели, аппроксимирующей оператор решаемой задачи. Естественно, данное обстоятельство требует учета множества особенностей, с которыми приходится иметь дело при решении задач из конкретных предметных областей.

Рассмотрим технологию метода коррелированных процессов применительно к задачам статистического моделирования с приближённо заданными или случайными параметрами. В литературе употребляется также термин "метод коррелированной выборки". Этот метод изначально был ориентирован на случай активного эксперимента, в особенности имитационного моделирования. В данной статье авторы отмечают широкие возможности данного  метода и для случая пассивного эксперимента. Как отмечалось автором в предыдущих публикациях, существует значительный практический интерес использования рассматриваемого метода в случае физического, а не только имитационного эксперимента.

                        1. Описание метода коррелированной выборки

Обозначим через l искомый n-мерный вектор вероятностных характеристик исходной системы, а через m m-мерный вектор вероятностных характеристик упрощённой системы (например, с уменьшенным числом факторов):    где M[…] – математическое ожидание величины, входящей в скобки; R и Sn- и m-мерный векторы, компоненты которых представляют собой некоторые функции от значений процессов соответственно в исходной и упрощенной системах.

Предположим, что с исходной и упрощенной системами проведено в одинаковых условиях N независимых между собой натурных или компьютерных статистических экспериментов. Статистические значения l* и m* векторов l и m, найденные по этим N экспериментам, будут

                        (1)

Не нарушая общности, будем считать, что эксперименты с одинаковыми внешними воздействиями на исходную и упрощенную системы имеют одинаковый номер, т.е. значения Rj и Sj получены при одних и тех же воздействиях.

Предполагается, что точное значение вектора m вероятностных характеристик упрощенной системы может быть найдено аналитически или каким-либо подходящим приближенным методом, но с высокой точностью (например, при помощи однофакторной модели исходной системы).

Метод коррелированной выборки основан на оптимальной оценке l0 вектора l по значениям векторов l*, m* и m, для чего отыскивается оценка вероятностных характеристик исходной системы по статистическим значениям вероятностных характеристик исходной и упрощенной системы. Таким образом, при статистическом моделировании используются результаты аналитического упрощенного исследования. Искомая оценка имеет вид [1]

(2)

где            

здесь li0 и li*i-е компоненты векторов l0 и l* соответственно; Rij i-я компонента вектора Rj.

Разность m*-m равна статистической ошибке в определении вектора m, которую удается найти благодаря знанию точного или практически точного  значения m этого вектора.

Величина
                                                     
представляет собой значение ошибки, пересчитанное для величины li* с учетом корреляционной связи li* и m*. Для получения оценки li0 это пересчитанное значение ошибки вычитается из статистического значения li* величины li. В результате оценка li0 получается более точной, чем статистическое значение li*.

Оценка каждой из компонент вектора l может быть произведена независимо от оценки других компонент.

Для практического использования формулы (2) необходимо знать корреляционные матрицу-строку  KRiS и матрицу  KSS.

Так как упрощенная система может исследоваться аналитическим или во многих случаях экономичным приближенным  методом (по крайней мере для определения вектора m), то в принципе возможно экономичное вычисление аналитическим или приближенным методом и с высокой точностью значения корреляционной матрицы  KSS. Однако в некоторых случаях определение  KSS может оказаться затруднительным. При этом вместо  KSS можно найти ее статистическое значение K*SS , вычисленное по тем же N экспериментам, по которым были найдены l* и m*, т.е. по формуле 
                                            .

Исходная система не поддается аналитическому исследованию, поэтому вместо корреляционной матрицы-строки KRiS  можно найти только ее статистическое значение  согласно формуле
                                           

Если число испытаний N  относительно невелико, то предпочтительней несмещенные оценки:
                       ,

Важной проблемой является построение приближенной модели. Как правило, это достигается посредством линеаризации или уменьшения детальности, числа факторов и т.п. исходной модели. Существенным преимуществом метода является следующее обстоятельство. Даже если приближенная модель весьма неточна, точность статистического метода будет не хуже, чем при применении обычного статистического метода обработки. Для повышения точности расчета необходимо, чтобы существовала корреляция между оцениваемыми параметрами исходной и приближенной модели. В качестве основного недостатка метода в [2] отмечается существование систематической ошибки при статистической оценке параметров.

Робастное оценивание в методе коррелированной выборки

Для построения робастного аналога рассматриваемого метода можно использовать один из существующих подходов: применение медианных оценок вместо выборочных средних, М-оценки, сглаживание или очистка исходных данных от выбросов и других посторонних составляющих, усеченное среднее.
Обзор методов построения робастной регрессии можно найти в [1-6]. В значительной степени эти подходы используют функции Хубера, основанные на оценке медианы абсолютного отклонения [6]. Одним из зарекомендовавших себя робастных методов статистики является метод Тейла-Сена. Как правило, его применяют для построения одномерной линейной регрессии. В литературе сообщается о нескольких вариантах его обобщения на случай многомерной линейной регрессии.

В данном исследовании проводились исследования в основном всех перечисленных подходов. Установлено, что проблемы использования медианного метода и М-оценок могут быть связаны с несимметричностью или многомодальностью распределений случайных величин. Наиболее устойчивые результаты были получены на основе применения метода усеченного среднего (Truncated mean). Для его вычисления усредняются данные вариационного ряда выборки после удаления с обеих сторон определенной доли объектов (она находится в пределах от 5 до 25% и определяется соответственно числу выбросов в выборке).

Усовершенствованный подход заключался в следующем. Выборка с выбросами преобразовывалась в вариационный ряд. В результате значения с выбросами оказывались в начале и в конце вариационного ряда. В соответствии с долей выбросов рассматриваемые хвосты вариационного ряда усекались. Далее отброшенные выборочные значения заменялись на значения, полученные в результате простого интерполирования по ближайшим регулярным значениям вариационного ряда. Получившаяся выборка обрабатывалась в соответствии с методом коррелированной выборки. Эффект имел место благодаря практической изолированности точек с выбросами от регулярной части выборки.

Сравнение эффективности метода выделения главной части и метода коррелированной выборки при вычислении интегралов

Ставится задача вычисления определенного интеграла:
 
                                                                

Известны  подынтегралльная функция `Psi` (u), а также ее приближенное, сильно упрощенное значение: `Psi` 1(u) ~ `Psi` (u) и значение соответствующего определенного интеграла
 
                                                                 

Предположим, что   – некоторая случайная величина (скалярная или векторная), равномерно распределенная в области интегрирования      , объем которой без ограничения общности положим равным единице. В этом случае

 

Оценка значения интеграла в методе коррелированной выборки осуществляется по формулам (1) – (2). В случае обычного метода Монте-Карло J~l*.

При использовании широкоупотребительного метода выделения главной части (называемого также методом управляемой переменной [3]) значение интеграла оценивается по формуле ~ l*– (m* –m).

В качестве численного примера рассмотрим случай, когда
                                      
 Результаты вычислений представлены в табл. 1 (при e = 0,5) и табл. 2 (при e = 0,1).

                                                                               Таблица 1

N

d, %

g1

g2

50

0,65

80

20

200

0,3

80

30

800

0,16

100

20

 

                                                                               Таблица 2

N

d, %

g1

g2

50

0,16

200

25

200

0,08

300

30

800

0,04

300

25

 

В таблицах обозначено: d – относительная погрешность метода коррелированной выборки, g1и g2 – выигрыш в точности по сравнению с методами Монте-Карло и выделения главной части соответственно.

При e = 0,01 выигрыш в точности метода коррелированных процессов по сравнению с методом Монте-Карло равен уже около 2500, при
e = 0,001 – около 20 000.

Отмеченные закономерности сохраняются и для других более сложных вариантов подынтегральных функций.

Результаты моделирования на основе робастного метода коррелированной выборки

 

Рис. 1. Результаты вычислений для робастного метода коррелированной выборки

Обозначения в таблице данных на рис. 1: dN – количество отсекаемых членов вариационного ряда с его начала или с конца; Jf – точное значение интеграла (Mt(y) – статистическое значение без уточнения, L0– значение с уточнением по методу коррелированной выборки, <L0> – усреднение по числу повторных вариантов выборок j=1..25),Jf1– точное значение интеграла с упрощенной подынтегральной функцией, v – статистическое значение для Jf1.
Kss – дисперсия, Krs – ковариация, k0, k1 – их относительные значения (нормированные на единицу относительно точных теоретических значений, при абсолютно точном вычислении должны равняться единице – только для данных рис. 1).

Результаты вычислений для другого вида функции

(`Psi`  (x)=sin(pax), a = 1..10,p=`pi` )

 

Рис. 2. Результаты вычислений для робастного метода коррелированной выборки при `Psi` (x)=sin(px)

 

 

Рис. 3. Результаты вычислений для робастного метода коррелированной выборки при `Psi` (x)=sin(5px)

 

 

Рис. 4 Результаты вычислений для робастного метода коррелированной выборки при `Psi` (x)=sin(10px)

 

 

 

Рис. 5. Результаты вычислений для робастного метода коррелированной выборки при `Psi` (x)=sin(10px) и меньшем объеме выборки (N=100)

 

Вывод

Метод коррелированной выборки в проведенных статистических экспериментах позволил достичь выигрыша в точности в среднем в  10–20 раз. Необходимо принимать во внимание, что из-за случайного фактора подобный выигрыш не гарантируется, примерно в каждом десятом статистическом эксперименте имел место проигрыш в точности. Предложенный авторами исследования робастный вариант позволяет применять метод коррелированной выборки и в случае большого числа выбросов или искаженных выборочных данных.
Целесообразно продолжить работу над совершенствованием метода, так как для многомерных выборочных данных метод усеченного среднего неудобен. В этом случае требуется аппроксимировать или интерполировать значения функции многих переменных, что требует применения сложной теории и относительно трудоемко. Здесь возможны разнообразные подходы, в том числе и усовершенствованные медианные методы, а также М-оценки. 

 

 

Библиографический список:

1. Пугачев В.Н. Комбинированные методы определения вероятностных характеристик. М.: Сов. радио, 1973. 256 с.
2. Васильев Д.В., Сабинин О.Ю. Ускоренное статистическое моделирование систем управления. Л.: Энергоатомиздат. Ленингр. отд-ние, 1987. 136 с.
3. Лихолет Н.О., Емельянов В.Ю., Шаров С.Н. Возможности сокращения трудоемкости статистического моделирования корреляционно-экстремальных систем. // Информационно-управляющие системы. Вып. 3. 2009. С. 13-20.
4. Шестопал, О.В. Робастные методы получения адекватных статистических моделей// Известия высших учебных заведений. Северо-Кавказский регион. Технические науки. – ЮФУ (Ростов-на-Дону) DOI: 10.17213/0321-2653-2018-1. – 2018. – № 1(197). – С. 18-23.
5. Robert G. Staudte: Robust estimation and testing. Wiley, New York 1990.
6. Хьюбер, П. Робастность в статистике. – М.: Мир, 1984.




Рецензии:

29.11.2018, 21:34 Мирмович Эдуард Григорьевич
Рецензия: Статья рекомендуется к опубликованию. Однако куда-то делся вариант с предыдущей рецензией рецензента. Там были и замечания, и пожелания.



Комментарии пользователей:

Оставить комментарий


 
 

Вверх