Кластерный анализ - способ увеличения веса одной из переменных

DEVIL095

Есть диапазон переменных, по которым можно выборку поделить на группы, но хотелось бы увеличить вклад одной из переменных в результат.
Придумал только это: после стандартизации данных (вычет среднего и деление на ст. отклонение) умножить вектор с этой особо значимой переменной на число меньше единицы.
Еще какие есть способы ранжировать переменные априори (по экспертной оценке) по важности их вклада в итоговый расклад?

babygirl

А это случаем не метрика Махаланобиса (точно не уверен, что его так звали) тебе нужна?

DEVIL095

Матрица Махаланобиса в принципе предполагает информацию о зависимости между переменными. Если одной переменной присвоить вес 0.8, а друим 1, то получится как раз, что матрица будет задана. Не знаешь, где метод реализован (прога) и матрицу можно ввести?

babygirl

Честно говоря не знаю, но предполагаю, что в любой программе для анализа, кластеризации и т.п. Посмотри в Weka для начала, хотя я и не совсем уверен. Уж явно любой мало-мальски приличный кластеризатор должен уметь не только по евклидовому расстоянию кластеризовать.

a7137928

В SPSS ты просто нажимаешь на кнопочку Weight cases и по какой-то выделенной переменной их взвешиваешь. Подозреваю, что в Statistica это тоже есть.

DEVIL095

Мне надо взвесить не объекты, а переменные, по которым идет кластеризация.

a7137928

А, пардон. Невнимательно прочитал.

Тогда да, все гораздо интереснее. Можно как ты предлагаешь: умножить переменную на коэффициент меньше единицы, это просто реализуется.

Можно вводить собственную метрику, скажем, ты берешь евклидову по остальным переменным плюс модуль разности по этой. Ну то есть конкретно этот пример, может быть, не имеет смысла, но здесь есть поле для экспериментов. Однако это требует от стат. пакета уметь работать с юзер-дефайнед функцией расстояния. Статистика, может быть, и умеет это; СПСС не умеет, я посмотрел.

Больше ничего в голову не приходит пока.
Оставить комментарий
Имя или ник:
Комментарий: