Рассмотим теперь основные типы отклонений от строгих параметрических моделей. Выделяют три основных типа отклонений:
(1) появление больших ошибок;
(2) округление и группировка;
(3) модель с самого начала выбиралась как некоторое приближение, например, в ее основу закладывалась центральная предельная теорема.
Относительно (1) необходимо отметить, что большие ошибки или искажения - это достаточно редкие явления (как правило, от 1 до 10 % в общем объеме данных), вкрадывающиеся из-за каких-то неправильных действий. Поэтому относительно их можно указать на следующее:
даже одна очень большая незамеченная ошибка способна совершенно обесценить статистический анализ (как это бывает при использовании метода наименьших квадратов);
несколько процентов больших ошибок - скорее правило, чем исключение;
современные робастные методы позволяют справиться с резко выделяющимися наблюдениями довольно просто и делают это даже лучше, чем классические объективные и субъективные методы отбраковки резко выделяющихся наблюдений.
Что касается (2), то все данные регистрируются и обрабатываются с ограниченной точностью, что делает их по большей части дискретными; далее их округляют, группируют или подвергают еще более грубой процедуре - классифицируют. В ряде ситуаций такие ошибки играют очень заметную роль: при очень грубой классификации, где непрерывное распределение служило бы очень плохим приближением; при изучении локально определенных величин вроде оценивания плотности и др.
Обратимся к (3). Даже большим множествам данных измерений очень высокого качества, не содержащим больших ошибок, свойственны небольшие, но заметные отклонения от нормальной модели, что выражается в наличии более длинных или более коротких "хвостов". Указанные хвосты являются причиной того, что получаемые оценки параметров положения и масштаба таких распределений характеризуются определенной величиной смещения.
Рассмотренные отклонения приводят к появлению неоднородных выборок, модели которых могут быть представлены смесями распределений заданного типа.
В настоящее время в практике устойчивого оценивания наибольшее распространение получили следующие модели смесей распределений:
модель Тьюки "засоренного”нормального закона вида
¥ (х) = (1 -е), N (х; т1, с;2 )+еN (х; т2, с2), (4.1)
где N(х;т,с2) - плотность нормального распределения со средним значением и дисперсией с2, е - доля (обычно относительно небольшая, 0 < е < 0,5 ) "засоряющих" наблюдений, а между дисперсиями
22
двух компонент имеет место неравенство с1 < с2 ;
модель засорения Шурыгина, отражающая тот факт, что встречающиеся на практике засорения часто несимметричны. Для этого в модель введен дополнительный параметр 0, характеризующий сдвиг засорения относительно основного распределения, имеющего функцию плотности N (х; т, с2). При этом рассматривается модель смеси вида
¥(х) = (1 -е), N(x■; т1, с2 )+еН(х - т-0), (4.2)
где т и с2 - параметры места группирования (сдвига) масштаба соответственно; И - плотность некоторого симметричного закона распределения.
Основная идея процедур устойчивого оценивания при работе с моделями (4.1), (4.2) заключается в том, что имеется возможность получения несмещенных или малосмещенных оценок параметров основного распределения N в условиях присутствия в исследуемых выборках так называемых "засоряющих" значений.
В настоящее время разработаны три класса робастных (устойчивых) оценок:
1. Устойчивые оценки на основе метода максимального правдоподобия (М-оценки).
2. Устойчивые оценки на основе ранговых критериев (^-оценки).
» следующая страница »
1 ... 12 13 14 15 16 1718 19 20 21 22 ... 30