Революция в мат.статистике?

Nefertyty

Несколько недель назад попалась мне следующая ссылка: http://medium.com/the-physics-arxiv-blog/cause-and-effect-t...
Вкратце: при некоторых условиях можно чисто статистическими методами понять, какая из коррелирующих величин от какой зависит. Вроде это очень круто? Хотелось бы комментариев эксперта.

tester1

Хотя я более чем нуб в статистике, могу быть уверен, что только имея два временных ряда или две выборки всё равно хрен скажешь что является причиной, потому что причинность как категория лежит в некотором смысле вне математики. Есть функциональная зависимость чисел, есть логическое следование (импликация) между логическими выражениями, но эти математические инструменты имхо охватывают метафизическую и бытовую суть причинности лишь частично.
Чтобы судить о причинности, нужно так или иначе привлекать эвристику, информацию о том, какие реальные вещи стоят за столбцами чисел. Могу поверить в то, что кто-то придумал метод, помогающий понимающему суть явлений человеку принимать решение с более высокой точностью, чем ранее. Слабо верю в то, что есть метод, позволяющий разумно и адекватно один из двух столбцов чисел объявить причиной, а другой следствием, опираясь лишь на эти столбцы.

demiurg

Я её тоже видел несколько недель назад
По-моему, да, круто

vvasilevskiy

Полностью поддерживаю Гонобобеля, от себя добавлю что рассматривая единую картину некоторого явления понятие причинности возникает уже в нашем сознании в процессе описания и понимания Т.е. в единой картине мозг выделяет отдельные части, которые называет причиной и следствием.

blackout

Кому лениво читать, вот основная мысль (имхо):
In particular, they say that in any set of measurements there will always be noise from various cause. The key assumption is that the pattern of noise in the cause will be different to the pattern of noise in the effect. That’s because any noise in X can have an influence on Y but not vice versa.

vvasilevskiy

У меня вопрос каким образом и кто формирует выборку данных? Я могу привести кучу примеров совершенно из физики , где утверждение, которое ты привел будет работать в другую сторон.
Вкратце: при некоторых условиях можно чисто статистическими методами понять, какая из коррелирующих величин от какой зависит. Вроде это очень круто? Хотелось бы комментариев эксперта.

Перевожу на русский язык:
При некоторых условиях мы укажем что от чего зависит
При некоторых других условиях окажется что все совсем наоборот.
Т.е. ключевое слово здесь "ПРИ НЕКОТОРЫХ УСЛОВИЯХ".
Таким образом матстатистика здесь не более чем ширма за которой скрывается проблема определения этих самых некоторых условий, т.е. совершенно гуманитарная проблема, имеющая к математике слабое отношение. О чем и написал Гонобобель

griz_a

Вкратце: если физик рассказывает о революции в математике, то к середине статьи выяснится, что он узнал какой-нибудь классический факт или просто кто-то пролил стакан воды, что он принял за всемирный потоп.
На самом деле, если пролистать архивную статью, о которой идет речь, то там ничего такого нет.
Там решается довольно таки рядовая задача - рассматривается случай
Y = f(X,U где U - случайная и неизвестная, причем независящая от X. Тогда задача несимметрична всегда, когда f достаточно хитрая функция.
Ну вот и определяется кто от кого зависит - Х от Y или Y от X.
Прямо скажем, это несколько удалено от тезиса "какая из коррелирующих величин от какой зависит", правда?
Дальше оценивать это исследование может разве что специалист в области, связанной с такими задачами, но на мой вкус математическая часть задачи решения малопригодна для практики, а "рукастая" часть решения - чистая эмпирика без какого-либо обоснования. Может быть тут ничего лучше и нет, это я просто по незнанию критикую.

Nefertyty

Y = f(X,U где U - случайная и неизвестная, причем независящая от X. Тогда задача несимметрична всегда, когда f достаточно хитрая функция.
если f - простая функция, например тождественная, разве метод не работает?

griz_a

Не очень понял о какой тождественности идет речь, но если, скажем, X, U - стандартные нормальные,
Y = X+U, то можно записать
X = aY + 1-a)Y - U) и подобрать a так, что aY, (1-a)Y-U будут некоррелированы, а значит независимы.
Тогда получится, что мы Х тоже можем представить как функцию от Y и независящей от нее штуки.

vvasilevskiy

У меня такое ощущение, что то что ты называешь революцией на самом деле интуитивно понятно, и любой человек с мозгами, занимающийся обработкой данных может это использовать не задумываясь. Например, в ситуации Y=f(X,U если я вижу что относительная погрешность X 5%, а. Y 7 %. При этом предполагая (то самое дополнительное условие что вид зависимости такой, что относительная погрешность причины переносится точно в следствие (зависимость в виде произведения)-из этого сразу следует что Y от X а не наоборот.
Это простейший пример, в более сложных случаях можно и спектры шумов и корреляционные отношения и все что угодно привлечь

Nefertyty

ну я оригинальную статью, признаюсь, не читал, но вроде суть в том, что к Y тоже добавлены шумы, которых нет в X?

griz_a

Да нет же. Я же все написал вроде доступно.
Берем Y = f(X,U где U не зависит от Y (вроде в итоге даже f(X) + U, но мне лениво разбираться, bivariate у них в итоге все ограничится или же все же для общей модели тоже есть результаты. Базовая понятная идея годится только для bivariate, базовая расплывчатая - для общей).
Если нам повезло и наоборот не представляется, то мы можем довольно хитроумным методом проверить гипотезу о том, что Y от Х представима, но не наоборот.
Проблема в том, что проверка гипотезы о том, что у нас все представимо таким образом, довольно таки сложная штука и работает, скорее всего, не очень хорошо, а у нас внутри еще и хитроумный механизм проверки гипотезы о том, что Y от Х зависит, а наоборот нет. Все это так хитро, что всерьез представить, насколько устойчива внутренняя гипотеза по отношению к отклонению от внешней, довольно проблематично.

griz_a

Любая статистическая методика базируется на чем-то простом, понятном и естественном. Просто она на интуитивные представления о том, как должно быть, накладывает некоторую формальную процедуру, позволяющая оценить границы, когда отвергать, а когда нет.

vvasilevskiy

Я вот сталкивался много раз с ситуациями, когда формальная статистическая процедура показывает полную независимость, а глаз видит, что что-то в этом есть и оказывается прав. И с обратными ситуациями, когда глаз видит что что-то есть в связи, а формальные статистические процедуры показывают, что это не так и оказываются правы.
Т.е. я призываю не кидаться в крайности типа.
1. без точных статистических методов невозможны точные аналитические суждения
2. матстатистика-кабала для яйцеголовых и от нее никакого проку нет, тут и так все понятно.
Но утверждаю, что матстатистика применительно к реальной жизни (например, к физике) всегда вторична, а метафизика и бытие (в терминах Гонобобеля) всегда первичны. И все кто пытается доказать обратное или недалеки умом или делают целенаправленный подлог

tester1

Т.е. я призываю не кидаться в крайности... И все кто пытается доказать обратное или недалеки умом или делают целенаправленный подлог
:grin:
Но по сути согласен, конечно. Как нет универсального способа решать все задачи, и лекарства чтобы лечить все болезни, так нет и идеального мат. аппарата на все случаи жизни. Действительно владеет инструментом тот, кто знает область его применимости и принцип устройства, тогда он может при случае и допилить/перенастроить инструмент под конкретную задачу. А пользу даже владеющий инструментом человек извлечёт именно тогда, когда он понимает в общих чертах, как устроено то, что он хочет изучать/чинить/создавать с помощью инструмента. Но всё это настолько очевидно, что даже флудом является в некоторой степени.

griz_a

Ничего, что формальная статистическая процедура в принципе не может показать "полную независимость"?
Каждый критерий проверки независимости - это попытка отследить определенное отклонение от независимости, причем весьма значимое.
Хочешь критерии, которые будут давать небольшие вер-ти ошибок второго рода - задавай жесткую альтернативу, с альтернативой "какая угодно зависимость", увы, никто гипотезу принять наверняка не сможет.

vvasilevskiy

Ничего, что формальная статистическая процедура в принципе не может показать "полную независимость"?
Я наверное не совсем то имел виду, у меня в основном ситуации бывают поиска некоторого эффекта по экспериментальным данным, т.е. под зависимостью и независимсотью понималось отсутствие некоторого качественного эффекта

tester1

Ничего, что формальная статистическая процедура в принципе не может показать "полную независимость"?
физик. он имел в виду, вероятно, не "полную независимость", а "отсутствие значимой зависимости в нескольких простых моделях типа Х=аУ +b + шум с нулевым средним"

griz_a

А это, собственно, не суть важно. Если это критерий без четкой альтернативы, то ошибку первого рода он обеспечит нужную, а гарантировать хорошую ошибку второго рода не сможет.

Nefertyty

я правильно понял, что нужны какие-то априорные знания, чтоб метод сработал?
например, о виде распределения шумов
например, если эти распределения нормальны, а f - нелинейна, то она изменит вид распределения шумов, и тогда мы скажем, что Y зависит от X?
или например если шумы особого рода вносим мы сами, тогда это прямой эксперимент?

griz_a

Да нет, можно проверить это и в процессе, просто сам метод, мягко говоря, не такой общий, как позиционируется в приведенной тобой статье.
Мы можем работать только в случае, когда одна из переменных есть функция второй плюс аддитивный шум. Это нечастое явление. Приведенные в статье примеры, например, едва ли подходят под эту модель, поэтому там мы уже вышли за пределы области действия этого метода. Все это, в общем-то, совсем не революция и от поставленной проблемы (определить, кто от кого зависит) это удалено на очень большое расстояние - слишком уж узкая модель очень сильно использующая введенные ограничения.
И да, если шумы вносим мы сами, то и задачи не стоит - мы и так знаем, с чем зависимы наши шумы, а с чем нет :)

tester1

Верно я понимаю, что там у них причинность понимается как функциональная зависимость чисел? Типа если X=sinY, то X через Y можно выразить, а наоборот нельзя ввиду неоднозначности обратной функции? И поэтому Y - причина, а Х - следствие? Или там нечто более глубокое? В статье глубоко не разбирался, просто хочу понять, это ли сермяжная правда, основа метода на пальцах.

griz_a

Да нет же. Дело в случайной добавке.
Если Y = X+ U, X,U независимы, то X = Y-U, где Y и U уже зависимы. Иногда можно найти альтернативное представление, а иногда нет. Зависит от распределений и от f

tester1

А кого здесь объявляют причиной, а кого следствием?

griz_a

X причина - она влечет Y с точностью до независящего от нее шума

tester1

Спасибо!
Оставить комментарий
Имя или ник:
Комментарий: