1
1
х
Фп X ) =
- - I
п +1 п( п + 1)
Фп, х> х0,1
I=1
п +1
х0,2 хо 1
0 123456789 10 Рис. 4.2. Функции чувствительности и их пороговые точки
п
п
х
Для выборочной медианы в случае нечетной выборки, т.е. для п = 2т + 1, имеем:
х,
(п)’
ф„ (х X ) =
Х(т) -
- Х(т+2)’
0,5[х — Х( т—1) ],
0,5[Х(т+2) — Х(т+1)] , Х — Х(т+2)-
Чп) _Л(п—1) \ АХ — Х(
Здесь для удобства положено Х(т + = 0. Для урезанного среднего с отбрасыванием, например, двух крайних порядковых статистик, главная часть ф( с точностью до 0(1/п) имеет вид
Ф( п)
Х |
(1) |
( п |
— 1)’ |
Х |
|
(п |
— 1)’ |
Х( п) |
|
(п |
—10) |
Х - Х,
Х1 - Х - Х(п)’
Х — Х,
(1)’
(п )-
Из рассмотрения кривых видно, что разность Тп+1(Х, X)—Тп (X) представляет собой при Х(т) - Х - Х(т+2) и Х(1) - Х - Х(п) отрезок прямой с определенным углом наклона, а при условии х - Х(т), х - Х(1) и х — Х( т+2), х — Х( п) - константы. Отсюда видно, что кривая чувствительности для среднего арифметического не ограничена, поэтому одно резко выделяющееся наблюдение может привести к сколь угодно большому его смешению. В то же время для медианы и урезанного среднего кривые чувствительности ограничены. Так, например, ля урезанного среднего смещение никогда не может превзойти
Х(п) — Х(1) )/ (п — 1).
Таким образом, рассмотренная функция характеризует меру чувствительности к ошибкам.
В то же время ей присуща определенная ограниченность. По построению она оказывается только локальным понятием. Поэтому возникает необходимость в определении особых точек кривых чувствительности, за которыми линейная аппроксимация теряет смысл.
Пороговая точка £ - это наименьшая доля ошибок (значений), которая определяет то расстояние от принятого в модели распределения, по достижению которого статистика становится совершенно ненадежной и неинформативной. Например, из рассмотрения кривых чувствительности (см. рис. 4.2) можно видеть, что выборочное среднее и выборочная медиана имеют соответственно пороговые точки £ = 0 и £ = 0,5 , а усредненное среднее - пороговую точку £ = а, равную уровню урезания.
Перейдем непосредственно к формированию решающих правил классификации на основе использования функций чувствительности, их пороговых точек и наборе оценок типа "средние": выборочного среднего ( х ), урезанных средних (ха) с различными уровнями урезания и выборочной медианы (хте). Выбор такого типа оценок обусловлен известным фактом: они характеризуют только однородные совокупности данных, что и определяет понятие "класс".
Решение задачи описывается следующими итерациями [8]:
1. Исходная совокупность данных X преобразуется в вариационный ряд вида Х(1) - Х(2) - Х(п), и по нему вычисляются вышеперечисленные оценки. На данном шаге решающее правило классификации имеет следующий вид:
х — ха - 5,
<^0(Х) с К,
Х — Ха2 -5,
Х Хтеё - 5’
где
X е
е [1,2,...,п]. (4.4)
Х — Ха > 5,
Х — Ха2 > 5,
п—т
^ Х(1) - урезанное среднее уровня а(0 - а < 0,5);
5 > 0 - достаточно малая величина, не препятствующая установлению равенства между значениями полученных оценок; £^( Х), Sp (Х) - классы данных, характеризуемые строгими и "загрязненными" параметрическими моделями.
» следующая страница »
1 ... 14 15 16 17 18 1920 21 22 23 24 ... 30