немного статистики

denis24

Всем привет.
Помогите, пожалуйста, разобраться с несколькими вопросами из области мат.статистики.
Общая задача такая: каждый день мы фиксируем некую величину Х. Это может быть курс ЦБ доллара или количество людей, которое проходит через определенный вход метро в промежутке от 8 до 9 утра. Теперь имея данные за год, к примеру, мы хотим определить, чему будет равна эта величина через 1 месяц, 3 месяца, полгода и год. Понятно, что точно это определить невозможно, т.е. нужно оценить вероятность того, что она будет равна некой величине Хo. Для этого мы должны смоделировать процесс, используя понятие случайной величины. Здесь возникает вопрос №1, есть ли разница для нас, если мы делаем три утверждения:
1. Хт+1 = Хт + @, где @ - случайная величина
2. Хт = F(т) + @, где F(т) - некая функция от времени, например, константа, линейная, или периодическая, а @ - случайная величина
3. Хт = @, где @ - случайная величина
Затем мы говорим, что по известному нам набору данных мы оцениваем распределение этой случайной величины и делаем предположение, что за год это распределение не изменится. Вопрос №2:
можем ли мы после этого предположения ответить на исходный вопрос, т.е. оценить вероятность того, что через заданный интервал времени наша наблюдаемая величина примет значение Хо?
Вопрос №3 также связан с этой задачей. Мы можем разбить известный нам набор данных на 2 пересекающихся множества Х и У, состоящее из 100 элементов, например. Пусть также 20 элементов у множеств Х и У совпадают. Вопрос в том, чему будет равна корреляция между множествами Х и У. Человек, с которым я это обсуждал, делает следующее утверждение:
весь вопрос в базовом предположении о стационарности и автокоррекции процесса.
если базовая гипотеза, в том, что последовательность величин изменений чего-то за i-ый день для i = 0 до N - независимы и равно-распределены, то
corr (изменение за отрезок 1, изменение за отрезок 2) = corr (сумма по отрезку 1 изменений за каждый день; сумма по отрезку 1 изменений за каждый день) = cov / корень из произведения дисперсий
1) ввиду билинейности ковариации
искомая ковариация = сумма cov(изменение за i-ый день, изменение за j-ый день) - то есть сумма нулей для несовпадающих дней и единиц для совпадающих (то есть в данном примере = 30)
2) дисперсия каждой из величин равна (опять же ввиду отсутсвтия корреляций между днями) ширине диапозона
т.е. если у нас есть два диапазона шириной T с пересечением t, то в условиях предположений о стационарности и отсутствии автокорреляции процесса, корреляция t/T
Я не могу понять, о чём вообще он пишет. Можете объяснить?
И вообще, есть какая-нибудь литература по этому поводу, в которой бы рассматривались не только теоретические вопросы типа всяких предельных теорем, но и примеры из практики?

griz_a

Если эти величины @_T (обозначать разные величины одной буквой @ это убийство просто) все одинаково распределенные, то получаем:
1. Конечно разные. В 3 вообще у X_t одно и то же распределение всегда, во 2 оно меняется сдвигом, очевидно, а в первом оно меняется более хитрым образом, если, конечно @ не константа.
2. Надо какие-то сведения о том, как связаны @_T при разных T, об их зависимости, иначе о чем речь-то? Скажем, что это марковская цепь или стационарная последовательность или н.о.р.
3. Смотря как разбить. В общем случае вопрос смысла не имеет, если у меня очень большая выборка, то ее всегда можно разбить так, что два по 20 будут одинаковые, при этом про остальные 80 и 80 у нас вообще нет информации.
4. Если @_T - н.о.р., то третья модель вообще мертвая, во второй обычная регрессия, а в первой оценка для случайного блуждания, которая, например, с помощью ЦПТ легко сделается.

denis24

Спасибо. Я понял, что мне нужно ботать про анализ временных рядов. Я уже разжился литературой - буду изучать. Один вопрос - если у нас есть набор из N элементов, то что мы можем про него сказать, если дисперсия этого набора равна sqrt(N)?

griz_a

Если абы каких, то суть ничего.
Оставить комментарий
Имя или ник:
Комментарий: