О поиске выбросов в выборке

Aleks150284

Выборка состоит из точек, расположенных в n-мерном пространстве. Распределения для каждой из размерностей далеко от нормального. Задача почистить выборку от выбросов. Можно ли применять нормировку по принципу: "1)вычли среднее и поделили на ст. откл. 2)если по одной из переменных точка лежит на расстоянии больше 3 сигма от среднего, то считать точку выбросом" ?
У меня, в силу того, что распределение извратное, получилось такое: удаляю выбросы по описанному в кавычках ""(тм) методу. Получаю новую выборке поменьше - но в ней снова есть выбросы (среднее и ст. откл. естественно рассчтывались для укороченной выборки, а не использовались из первой). Так можно чистить итерационно, выбрасываю до трети объектов - что есть, вероятно, не тру?
В общем, вопросы такие:
1) если цель очистка от выбросов по правилу 3 ст. отклонений, а многомерное распределение ни разу не нормальное, релевантно ли проводить нормализацию по первому методу?
2)еще узнал про метод исключения выбросов Смирнова-Граббса (данные только о процедуре) он использует какие-то предпосылки о распределении многомерной сл. величины?

griz_a

Можно ли применять нормировку по принципу: "1)вычли среднее и поделили на ст. откл. 2)если по одной из переменных точка лежит на расстоянии больше 3 сигма от среднего, то считать точку выбросом" ?

Конечно нет. Во-первых, три сигма - это для одномерной нормальной, а у тебя не так
Во-вторых, многомерную выборку нельзя покоординатно фильтровать.
У тебя, например, все точки распределены вдоль рямой y=x в двумерном случае, x от 0 до 1, и еще впридачу точка 0, 1.
Покоординатно она не хуже других, а на деле явный выброс.
Вообще хорошо бы знать что у тебя за выборка? Независимые о.р. векторы?

Aleks150284

прямоугольная матрица: n переменных для k объектов (без пропусков значений)
на данный момент n=2 (были удалены сильно коррелированные с оставшимися переменные): коэффициенты корреляции спирмена и кендала для оставшихся переменных - около 5-10%, незначимые

sverum

У тебя, например, все точки распределены вдоль рямой y=x в двумерном случае, x от 0 до 1, и еще впридачу точка 0, 1.
Прикольно.

griz_a

Э, да это повторные наблюдения? Ранговые методы? Зачем тогда выбросы удалять?

Aleks150284

Э, да это повторные наблюдения? Ранговые методы? Зачем тогда выбросы удалять?
Сейчас расскажу всю историю.
Общая задача: распределить объекты (страны мира) на кластеры, взяв за основу ряд показателей: запасы природных ресурсов, средний возраст населения, плотность населения. Для кластеризации желательно оставить некоррелированные переменные*.
*По гистрограммам для каждой из переменных видно, что закон далек от нормального (за исключением среднего возраста). Поэтому коэф. корреляции Пирсона не использовался, а только к. Спирмена и Кендала. Итак, отобрали 2 переменные: запасы природных ресурсов и плотность населения.*
Проблемы 1) метод кластеризации к-средними чувствителен к выбросам - встала задача их вычленить и отсеять
2) нужна нормализация по переменным, так как переменная измеренная в тысячах единиц подавляет информацию о переменной измеренной в десятках единиц при использовании, например евклидовой метрики для измерения расстояний между точками(объектами).

griz_a

начнем с того какие кластеры интересуют - ленточные, ядра?

Aleks150284

интересуют ядра (субъективно кажется, что они будут лучше характеризовать различные рощи точек) :)

griz_a

Я так понял, данных немного?
Может тогда иерархией и не париться? Выбросы сами в отдельные кластеры отфильтруются? Методом Уорда каким-нибудь?

Aleks150284

данных около 80 объектов по 2-м переменным. насчет иерархии - оно, конечно, можно.
Нужна нормировка для приведения единиц измерения к одному знаменателю.
Нормировка (вычесть среднее, поделить на дисперсию) прокатит для не нормального распределенных величин или лучше перейти к какой-то другой нормировке, ну не знаю - например по единичному вектору [0,1]?

griz_a

Лучше на отрезок нормировать, но только посмотри чтобы покоординатных выбросов в разы не было :)
Оставить комментарий
Имя или ник:
Комментарий: