Корреляция случайных процессов

lev-rechin

Для двух случайных процессов X(t) и Y(t с интервалом dt производится измерения и считаются величины приращений x_i = X( i*dt ) - X( (i-1)*dt ) и y_i = Y( i*dt ) - Y( (i-1)*dt )
x_i и y_i имеют нулевое среднее, соизмеримую дисперсию, но распределение их не нормально (если это важно x_i и y_i не автокоррелированы
Теперь суть вопроса:
что можно сказать о разности Y(t) - X(t) если при dt = 5мин corr(x_i, y_i) = 0.65, а при dt = 1час corr(x_i, y_i) = 0.85?
или хотя бы что вобще означает факт того что при учащении измерения корреляция слабеет?

sverum

Сколько у тебя наблюдений?

lev-rechin

стандартно, 10000

lev-rechin

пятиминутных - 10000, часовых - 833

sverum

но распределение их не нормально
А какое?

stm7543347

или хотя бы что вобще означает факт того что при учащении измерения корреляция слабеет?
МБ, хаос и опокалепсес в верхних частотах?

lev-rechin

>> но распределение их не нормально
> А какое?
да какое-то беспонтовое, с большими ховстами, но симметричное, походу смесь нескольких

lev-rechin

> МБ, хаос и опокалепсес в верхних частотах?
это как? скажи что считануть чтоб понять есть ли там опокалепсес?

griz_a

при dt = 5мин corr(x_i, y_i) = 0.65, а при dt = 1час corr(x_i, y_i) = 0.85?

Что-то я не понимаю описанной модели. это при всех i? То есть x_{через час} и y_{через час} разные при измерении раз в пять минут и раз в час?

Manbox

Алгоритм вычисления корреляции в студию.
Как соотносятся интервалы измерения и характерные времена измеряемых процессов?
Может ли быть у "x" и "y" общий "медленный" фон?
Бывает полезно проследить изменение корреляции с увеличением выборки, а то может до выводов еще недельку данные считывать =)
АП. Да, и в любом случае, что бы делать какие-то оценки на разницу нужна корреляция X и Y, вот, иначе дальше "там происходит какая-то неведомая хуйня" дело не двинется =)

vladnanu

Точно известно, что x_i одинаково распределенные? И ты уверен, что нет автокорреляции?

lev-rechin

>> при dt = 5мин corr(x_i, y_i) = 0.65, а при dt = 1час corr(x_i, y_i) = 0.85?
> Что-то я не понимаю описанной модели. это при всех i?
а если так:
есть 10000 измерений X, дальше введём U(i) = X( 1+12*(i-1) )
на нарисованы точки X(i) и получившиеся U(i)
аналогично делаем для Y и получаем точки V(i) = Y( 1+12*(i-1) )
после этого рассчитаем 9999 разностей x_i и y_i для X и Y и 832 разности u_i и v_i для U и V
считаются корреляции corr(x_i, y_i) =0.65 и corr(u_i, v_i)=0.85 и собственно навсякий случай исходные вопросы:
что можно сказать о разности Y(t) - X(t)
или хотя бы что вобще означает факт того что при учащении измерения корреляция слабеет?
> То есть x_{через час} и y_{через час} разные при измерении раз в пять минут и раз в час?
в общем да, в переобозначенных буквах получится u_i равно сумме диапазона из 12 штук x_i

griz_a

корелляции как считаются :confused:
не понимаю, с чего у U_1, V_1 корелляция отличается от корелляции X_1, Y_1 если это одно и то же?

Manbox

Корреляции считает умный компутер готовой прогой?
Сделай пожалуйста график R(i) - корреляции от количества точек для обеих выборок, как станет понятно, устаканивается ли она, можно дальше думать и советовать.

vladnanu

Кстати, она плохо считается, если хвосты тяженые.

lev-rechin

> Алгоритм вычисления корреляции в студию.
excel'евский, http://upload.wikimedia.org/math/f/3/7/f3788c0d15f4424f9ec16...
> Как соотносятся интервалы измерения и характерные времена измеряемых процессов?
характерное время процесса - ~10 секунд, интервал измерения 5 минут. в 30 раз примерно.
> Может ли быть у "x" и "y" общий "медленный" фон?
может
> АП. Да, и в любом случае, что бы делать какие-то оценки на разницу нужна корреляция X и Y,
> вот, иначе дальше "там происходит какая-то неведомая хуйня" дело не двинется =)
следует ли из того, что корреляция x и y при частых измерениях ниже то, что для разности X-Y корень(12)*сигма(5мин) > сигма(1час)? если можно - какой-нибудь радикальный пример, когда это не так?

lev-rechin

> И ты уверен, что нет автокорреляции?
0.05 на 10000 - значимо?

lev-rechin

точнее даже +-0.02

lev-rechin

> не понимаю, с чего у U_1, V_1 корелляция отличается от корелляции X_1, Y_1
> если это одно и то же?
ты дочитал до того места где про разности?

griz_a

а, понял, да, невнимателен.
Я бы не советовал делить на корень из выборочной дисперсии при тяжелых хвостах. Выборочная дисперсия не очень робастна.
А так
[math]$\rho(u_i,v_i)=\rho(\sum x_i, \sum y_i)=\frac{cov(\sum x_i, \sum y_i)}{12 \sqrt{Dx_1 Dy_1}}=\sum\limits_{i,j} \rho(x_i, y_j)/12=0.65+\sum\limits_{i\neq j} \rho(x_i, y_j)/12 = 0.85$[/math]
То есть [math]$x_i, y_j $[/math] довольно сильно кореллируют при i не равных j.

lev-rechin

> Сделай пожалуйста график R(i) - корреляции от количества точек для обеих выборок, как
> станет понятно, устаканивается ли она, можно дальше думать и советовать.

по оси X - период измеренияв минутах, по оси Y - корреляция
данных с интервалом меньше чем 5 минут нет :(

lev-rechin

> То есть довольно сильно кореллируют при i не равных j.
вроде бы и логично и не очень ..... надо подумать, последняя сумма при разных i и j - там слагаемых 11 или больше?

griz_a

*11

griz_a

Только совсем не факт, что они равны, эти слагаемые. Вполне возможно, что корелляция затухающая и основных членов там как раз штук 12, а остальные меньше

lev-rechin

т.е. средняя корреляция при i<>j будет 0.2*12/(12*11)=0.018 - впринципе правдоподобно, но не думал, что это может внести такой сильный вклад, надо перепроверить твои выкладки
правильно понимаю, что можно сказать, что один процесс опережает другой, но нельзя сказать какой?

griz_a

я вообще сомневаюсь, что эти слагаемые одного порядка, как я уже говорил.
в случае когда один процесс другой опережает, если я понял о чем речь, не было бы такой большой корелляции между x_i и y_i

Manbox

по оси X - период измеренияв минутах, по оси Y - корреляцияданных с интервалом меньше чем 5 минут нет
попытка номер 3
Построй графики для ВСЕХ точек обеих выборок, по ним ты сразу увидишь когда начинается ослабление корреляции. Судя по графику для 5-минутных измерений, корреляция которых сначала ползает возле 0.85 и тому что вторая выборка из 800 событий дает столько же, заметное ослабление корреляции может начинатся за несколько тысяч событий. К тому же можно усомнится в том что 10к 5-минутных измерений достаточно, т.к. столько "достаточно для "нормальных" распределений, а для всяких длиннохвостых и многогорбых и миллиона может быть мало. Надо же хоть какую-то элементарную проверку результатов на вшивость, ака устойчивость, делать =)
Офф. 10к измерений в экселе эт что-то с чем-то

lev-rechin

> Судя по графику для 5-минутных измерений, корреляция которых сначала ползает возле 0.85
> и тому что вторая выборка из 800 событий дает столько же
да нет же, реализация процессов одна и таже, только X и Y - это их оцифровка каждые 5 минут, а U и V - это те же самые процесс оцифрованные (параллельно с X и Y) раз в час
корреляция ползает не первые 5 минут в одном районе а потом уходит в другой, а отличается в зависимости от частоты сбора данных - вопрос - о чем это может говорить?
вопрос по другому - какая корреляция "настоящая"? на какой интервал настраивать принятие решения управления - на 5 минут или на 20 минут (когда корреляция выходит на плато 0.85)?

lev-rechin

> Офф. 10к измерений в экселе эт что-то с чем-то
нормально, он неплохо фурычит

Manbox

> Судя по графику для 5-минутных измерений, корреляция которых сначала ползает возле 0.85> и тому что вторая выборка из 800 событий дает столько жеда нет же, реализация процессов одна и таже, только X и Y - это их оцифровка каждые 5 минут, а U и V - это те же самые процесс оцифрованные (параллельно с X и Y) раз в часкорреляция ползает не первые 5 минут в одном районе а потом уходит в другой, а отличается в зависимости от частоты сбора данных - вопрос - о чем это может говорить?вопрос по другому - какая корреляция "настоящая"? на какой интервал настраивать принятие решения управления - на 5 минут или на 20 минут (когда корреляция выходит на плато 0.85)?
Ну ёж-моеж, "настоящая" корреляция это хвост того, что я прошу построить, если он выходит на константу. Где доказательства что она не убывает дальше до нуля или не ухоидит в минус или вообще не колеблется?
Вот для того и надо анализировать R(i что бы понять наскоько быстро надо мерить и важно ли это вообще.
"а отличается в зависимости от частоты сбора данных", - ну а наглядное представление где, как можно верить двум числам, если размеры выборок отличаются на порядок, а корреляция может менятся довольно слабо?
Да и вообще при чем здесь частота, у тебя две разные выборки из одного набора данных дают разный результат, как ты из "на самом деле получаешь" для первоначального анализа абсолютно не важно, так что надо разбирать детальное поведение корреляции для обеих выборок, т.е. искать косяки своей обработки данных и интерпритации результатов, а не привязываться к двум числам и частоте измерений.
Все что хочу сказать это то, что вероятнее всего, статистики в почасовой выборке просто не хватает. =)

lev-rechin

> "а отличается в зависимости от частоты сбора данных", - ну а наглядное представление где,
> как можно верить двум числам, если размеры выборок отличаются на порядок,
это, у тебя картинки включены?

lev-rechin

размеры выборок и должны отличаться на порядок, потому, что интервал измерения отличается на порядок

Manbox

> "а отличается в зависимости от частоты сбора данных", - ну а наглядное представление где,> как можно верить двум числам, если размеры выборок отличаются на порядок,это, у тебя картинки включены?http://forumlocal.ru/user/upload/file353669.jpg
Не тот график, имелась ввиду зависимость корреляции от количества точек в данной конкретной выборке. Т.е. нужен график для 10к точек первой выборки и со-но корреляция, посчитанная для всех точек до данной, по нему будет видно как и куда оно все сходится. А то что ты построил ни о чем не говорит, т.к. погрешности на этом графике могут быть очень большими.
Оставить комментарий
Имя или ник:
Комментарий: