Корреляция двух случайных величин, одна из которых бинарная

natali22061979

Здравствуй, доброфорум!
А вот смотрите, есть две случайных величины. Одна из них принимает только значения 0 и 1. Другая побогаче с диапазоном принимаемых значений.
Ну, то есть имеется нечто наподобие вот такого:
1 38
0 31
1 78
1 135
0 57
0 38
1 132
1 38
0 48
0 14
1 42
1 129
0 118
0 86
1 129
1 121
0 24
и т.д.
Сдается мне, просто брать и считать коэффициент корреляции в данном случае бессмысленно. Но ведь должен же быть способ ухватить наличие зависимости?
Как же поступают в таком случае наимудрейшие?

Niklz

Посмотреть как отличаются гистограммы второй величины в двух случаях: когда первая равна 0 и когда первая равна 1 ?
Короче сравнить условные распределения p(x2|x1=0) и p(x2|x1=1). Насколько отличаются средние (точнее доверительные интервалы для средних дисперсии (точнее доверительные интервалы для них) и т.д.

griz_a

Можно сгруппировать правые данные, разбить их на несколько категорий и проверять зависимость признаков с помощью таблиц сопряженности.

c3po

А приведенный отрезок из реальных данных? Может тупо за корреляцией бинарной величины и знака производной небинарной последить?

griz_a

Если никаких условий на тип зависимости нету (а топикстартер ничего об этом не сказал то какой смысл строить критерий с альтернативой в виде зависимости возрастания элементов справа от того, 0 или 1 стоит слева? Ну не найдет он там зависимости и что толку?
Если задача общая, то лучше использовать общеупотребимые общие методы, например, хи-квадрат.

tester1

Я не специалист в статистике ни разу, но мне кажется, что любое исследование надо начинать с формулировки целей, а не с выбора методов.
Короче: а что ты хочешь узнать из этих данных и зачем? Если расскажешь, то, наверное, форумские мыслители смогут более точно подсказать, как это сделать (если это вообще возможно).

tester1

задача в этом?
ухватить наличие зависимости
то есть понять, есть ли статистические основания считать величины коррелированными?
да, и снова на правах КО - ты же знаешь, что корреляция ещё не означает причинно-следственную связь, т.е. что изменение одной величины ведёт к изменению другой? вот картинка по теме:

demiurg

Сдается мне, просто брать и считать коэффициент корреляции в данном случае бессмысленно.
Да по-моему, и это вполне сработает.

stat3032681

Можно построить логистическую регрессию с целевой бинарной функцией и применить ее на этих же данных. Сравнить предсказание с реальными значениями целевой функции (для сравнения можно использовать разные ошибки, например, AUC).
Коэффициент корреляции покажет только линейную зависимость, что тоже иногда очень полезно.

GALINCA21

Наверняка в таких случаях обычный коэффициент корреляции Пирсона работает некорректно. Как вариант воспользуйтесь ранговым коэффициентом корреляции Спирмена. В любом случае, здесь нужно применять только НЕпараметрические методы.

tester1

почему моё сообщение набрало минусы? из-за того, что я сказал лажу, или из-за того, что сказал очевидное, всеми присутствующими понимаемое, и поэтому ненужное?

griz_a

Наверняка в таких случаях обычный коэффициент корреляции Пирсона работает некорректно. Как вариант воспользуйтесь ранговым коэффициентом корреляции Спирмена

О каком вообще может идти речь коэффициент корреляции Пирсона, когда он хорошо работает только в околонормальном случае, а у нас ну совсем не нормальное распределение первого параметра.
Коэффициент корреляция Спирмена - это оценка для коэффициента корреляции рангов. Но ранг по первой выборке всего два возможных значения принимает. Разумеется, коэффициенту корреляции придется тяжеловато.
Идея замены данных на ранги в том, что при этом скрадывается специфика хвостов распределения и данные становятся регулярными, для которых коэффициент корреляции является хорошим показателем. Но для бинарных данных это очевидно совершенно бесполезное дело.
Иначе говоря, коэффициент Спирмена хорошо работает, если совпадений мало, хуже, если много и почти совсем никак, если выборка принимает два возможных значения.
В целом, хорошо бы, чтобы отвечающие на вопросы в такой сложной науке как математическая статистика, имели бы минимальное представление о том, на чем основываются методы, которые они рекомендуют. Если вы сами применяете методы просто по названию, то не надо подсказывать подобные действия другим.

Niklz


В любом случае, здесь нужно применять только НЕпараметрические методы.
не факт, кстати. ты же не видел всех данных бурарума - может у него 50K записей и вторая величина несмотря на дискретность имеет 1K различных значений и её гистограмма выглядит как царь-колокол.

c3po

А если это потоковые данные с прибора, которые надо обрабатывать на контроллере советского производства экономя каждый такт?
Топикстартер же ничего про это не сказал, ага.
Может, все таки, лучше подождать топикстартера с уточнением сути задачи, чем сразу выходить на турнир за честь Математической Статистики и её Общеупотребимо Общих Методов.

griz_a

Достаточно просто не домысливать за топикстартера.
Если ему будет не подходить тот или иной метод, то он скажет об этом.
Если у него будет последовательный анализ, то он об этом сообщит. Надо сказать, для последовательного анализа тоже предложен не лучший метод.

kirawa

А численное значение корреляции строго необходимо или интересует сам факт?
В данном случае, сдаётся мне корреляция имеет место быть.
Можно ещё посчитать p-value и оценить вероятность случайного возникновения зависимости, тем более если выборка невелика, т.к. на больших выборках значение почти всегда показывает отсутствие случайной зависимости.

faf5083

Point-biserial correlation coefficient
хотя по мне так дурацкая величина. проще разделить выборку на две части (с нулями и с единицами) и проверить гипотезу равенства средних.

griz_a

Почему равенства средних, а не однородности :confused:
Оставить комментарий
Имя или ник:
Комментарий: