Тест Дики-Фуллера

hatiz18

Имеется временной ряд (биржевой индекс очевидно колеблющийся около линейного тренда. Подбираю одну из следующих регрессионных моделей:

Верны ли t - оценки по методу наименьших квадратов для параметра регрессии?
Статистика для теста Дики-Фуллера строится делением данной оценки на оценку её дисперсии? Правильно ли я понимаю, что в первом случае это будет корень из обёма выборки, а вот во втором и третьем считать в явном виде будет чрезвычайно сложно?
Где можно найти наиболее полные таблицы критических значений этих статистик для различных объёмов выборки и уровней значимости?

sverum

Имеется временной ряд (биржевой индекс очевидно колеблющийся около линейного тренда.

Экономист?

seregaohota

фиг знает
на wiki ссылка на таблицы есть
пример оттуда How to do a "Regular" Dickey-Fuller Test Using Excel
http://theorangedog.net/wp-content/uploads/2007/11/dickey-fu...
см ещё в ответах

hatiz18

   Прежде чем провести анализ в прикладных программах, я бы хотела просчитать в явном виде! Без этого тоже не обойтись. В матричном виде для любой размерности выражена и дисперсия (например, здесь: http://en.wikipedia.org/wiki/Ordinary_least_squares%29 и, видимо, при помощи Excel это считается довольно банально. Но руками посчитать это уже для регрессии с двумя параметрами сложно. Приходится обращать матрицу размера nxn. А это всего лишь обычное блуждание с дрейфом! В моём анализе всё же заметен линеарный тренд.
   Плюс остались вопросы, где я могла бы найти наиболее полные таблицы и верно ли я понимаю, как образуется статистика теста?

seregaohota

Я пас, я не с матстата и не с экономики, а разбираться некогда, sorry. Подозреваю для вероятнистников не больно сложные вопросы, если только постановка не затуманена специфическими экономическими терминами.
PS В Экселе есть вычисление обратной матрицы встроенное, надо выделить область, где будет обратная, щёлкнуть по fx вставка функции, выбрать математические и функцию по-русски вроде МОБР, ввести в качестве аргумента где находится исходная матрица и нажать Ctrl-Shift-Enter, в хелпе всё написано должно быть и с примерами. Там и произведение матриц есть и т.п.

hatiz18

UP!
В Excel всё почти сделала, это было просто. Работать буду завтра с чистой совестью! :)
Но теория ещё нужна!
Нашла страницу http://www.semestr.ru/ks306, для случая не только с дрейфом, но и с линейным трендом. Но я всё не могу понять, как посчитали оценку дисперсии параметров? Она же считается умножением матриц произвольного размера выборки.
И помогите, пожалуйста, найти таблицы для статистики теста Дики-Фуллера.

seregaohota

Из англ. википедии ссылка Statistical tables for unit-root tests – Dickey–Fuller table
Не те таблицы, что надо?

hatiz18

Да, требуемой модели там нет. :(
Y(t)-Y(t-1)=a+bt+cY(t-1)+e, гипотеза - c=0.
Для моей модели я нашла таблицы только для выборки в 25 и 50 элементов, это слишком мало. И результаты получаются очень странными. Для проверки гипотезы использую статистику, считаемую как отношение оценки параметра c к оценке его дисперсии. Оценка дисперсии параметра получается в десять раз больше самого параметра, это странно. Гипотеза стационарности всегда отвергается. Конечно, это для биржевого индекса логично, но слишком явно, на мой взгляд.

sverum

Оценка дисперсии параметра получается в десять раз больше самого параметра, это странно.

Так и должно быть. Прикинь своими экономическими мозгами что бы можно было сделать, если бы параметры твоей модели нормально оценивались :) А потом задумайся, правда ли ты самая умная ;)
Кстати, есть товары, цены которых неплохо описываются такой моделью как у тебя (правда параметры оцениваются более сложным образом). Но их (сюрприз, сюрприз!) нельзя хранить :)
Гипотеза стационарности всегда отвергается.
Это, видимо, из-за изменения волатильности.

hatiz18

Если бы был только этот индекс, всё в порядке бы было, я бы поверила, что для 50 значений оценки будут не ахти какие хорошие, да и AR(1) с трендом его не так хорошо опишет.
Но я для проверки, как метод работает, смоделировала процесс X(t)=0.3+X(t-1)+e(t где e(t) - белый шум с дисперсией 1/2, использовала модель случайного блуждания со сносом, построила статистику. И снова оценки параметров (для X(t)-X(t-1)=a+bX(t-1)+e(t получились странными - 0.293 для сноса a, 0.002 для b (ну в это можно верить для таких сгенерированных данных оценка дисперсии была уже 0.212, статистика - 0.010.
Может, я ошибаюсь в построении статистики? В понимании модели?

sverum

Но я для проверки, как метод работает, смоделировала процесс X(t)=0.3+X(t-1)+e(t где e(t) - белый шум с дисперсией 1/2, использовала модель случайного блуждания со сносом, построила статистику. И снова оценки параметров (для X(t)-X(t-1)=a+bX(t-1)+e(t получились странными - 0.293 для сноса a, 0.002 для b (ну в это можно верить для таких сгенерированных данных оценка дисперсии была уже 0.212, статистика - 0.010.
Может, я ошибаюсь в построении статистики? В понимании модели?
Ну если дисперсия оценивается как 0.212, а на самом деле 0.5, то наверняка где-нибудь ошибка, дисперсия в такой модели должна хорошо оцениваться.

hatiz18

Имеется в виду оценка дисперсии параметра b.

Каким способом я могу оценить дисперсию оценки коэффициентов при регрессорах?

sverum

Каким способом я могу оценить дисперсию оценки коэффициентов при регрессорах?
Если шум гауссовский, то оценки по методу наименьших квадратов совпадает оценками по методу максимума правдоподобия (http://en.wikipedia.org/wiki/Maximum_likelihood). Асимптотически они распределены нормально, матрицу их ковариаций можно найти через информационную матрицу (http://en.wikipedia.org/wiki/Fisher_information которая в твой модели 100% считается.
Проделав это, ты увидишь что для реальных данных по индексу стандартные отклонения оценок коэффициентов в несколько раз больше их значений :)

hatiz18

Спасибо!
Знаешь, у меня действительно получились иные параметры. Более правдоподобные! Но значение статистики всё равно чрезвычайно странное. Для моделированного процесса статистика действительно отличается очень сильно в пользу отвержения гипотезы стационарности (слишком хорошо, чтобы было правдой? а для биржевого индекса она в десять раз ниже критического значения в пользу принятия - грубо говоря, отвергаем при менее чем -3, а она равна -30... Может это быть потому, что значения индекса порядка тысяч, оценка исследуемого параметра регрессии - отрицательная порядка сотых долей - и потому с тем же успехом могла бы быть положительной и дать положительную статистику, в результате чего гипотезу мы бы отвергли? Имею в виду то, что получен действительно шаткий результат.

valko20

При статистике меньше чем -3 (и тем более при меньше чем -30) мы, наоборот, отвергаем гипотезу НЕстационарности (фита=1). Поэтому оценка смоделированного процесса правильно показала нестационарность.

hatiz18

Так я и пишу, что смоделированный процесс имеет сильно положительную статистику. :)
А вот биржевой индекс, наоборот, дал отрицательную.
Мне кажется всё же несколько странным то, что значения статистик слишком явные. Обычно в практике я сталкивалась с примерами, когда статистика колеблется у критического значения не так сильно. Не в несколько раз уж точно... Думаете, в этом случае отличия не менее чем в десять раз возможны?

valko20

Обычный Дики-Фуллер для авторегрессии первого порядка оценивается для уравнения Y(t)=a+bt+cY(t-1)+e, t-cтатистика равна (с-1)/станд.откл. Но если брать уравнение Y(t)-Y(t-1) =a+bt+cY(t-1)+e, то понятно, что в случае единичного корня коэффициент при Y(t-1) получится незначимым и будет колебаться вокруг нуля (а плюс или минус здесь неважно).
Оценка дисперсии параметра получается в десять раз больше самого параметра
Вот это хороший результат, как уже говорилось выше. А откуда потом могло взяться -30, может ты делишь на дисперсию, а не на корень из нее?

hatiz18

Если брать статистику не для первой модели, а для модели Y(t)-Y(t-1) =a+bt+cY(t-1)+e, правильно ли я понимаю, что статистикой будет оценка c, делённая на корень из дисперсии этой оценки?

valko20

Надо все равно брать t-статистику (с-1)/(корень дисперсии ведь именно для нее вычислены односторонние критические значения. Делаешь тест Дики-Фуллера для уравнения Y(t)=a+bt+cY(t-1)+e, если показывает нестационарность (t>t крит. берешь разность и снова делаешь тест.

hatiz18

   Для модели Y(t)=a+bt+cY(t-1)+e(t) (с-1)/(корень дисперсии) даёт те же результаты, что модель Y(t)-Y(t-1)=a+bt+dY(t-1)+e(t) и d/(корень дисперсии d=c-1. :)
   А вот проверять стационарность разности следует для модели Y(t)-Y(t-1)=a+bt+dY(t-1)+e(t) или для модели Y(t)-Y(t-1)=a+bt+c(Y(t-1)-Y(t-2+e(t)-e(t-1)?

valko20

Да, это было явно лишнее замечание. :)
Берется модель Y(t)-Y(t-1)=a+bt+dY(t-1)+e(t реализацию Y(t)-Y(t-1) можно записать как Y(t)-Y(t-1)=b+c(Y(t-1)-Y(t-2+e(t)-e(t-1 и она равносильна первой формуле (Y(t)=a+bt+cY(t-1)+e(t d=c-1).

hatiz18

Получается, когда мы переходим к проверке стационарности разностей процесса с линейным трендом, мы всего лишь делаем то же самое, но в качестве рассматриваемого процесса берётся Y(t)-Y(t-1 а порядок регрессии будет на единицу меньшим?
Как быть с тем, что при оценке модели со сносом, но без линейного тренда снос исчезает при переходе к разностям? Забыть про это и считать, что снос есть?

valko20

Тренд никуда не девается, поскольку обе формулы равносильны: в формуле Y(t)-Y(t-1)=b+c(Y(t-1)-Y(t-2+e(t)-e(t-1) замени e(t-1) на Y(t-1)-a-b(t-1)-cY(t-2).

hatiz18

Да, это в модели с трендом, а если мы рассмотрели модель с константой (сносом выяснили, что она нестационарна, и решили перейти к модели с разностями, в регрессии вообще остался один параметр, получилась модель Y(t)-Y(t-1)=c(Y(t-1)-Y(t-2+e(t)-e(t-1 то есть вообще без константы... Регрессию для теста оценивать так, как будто константа есть?

valko20

Так ничего же не меняется, и константа остается, так же как и тренд в предыдущей модели. Когда берешь первую разность, из обоих частей уравнения вычитаешь Y(t-1). Если Y(t-1) в правой части раскладываешь, то получаешь уравнение Y(t)-Y(t-1)=c(Y(t-1)-Y(t-2+e(t)-e(t-1). Но стоит ли оценивать это уравнение, если объясняющая переменная зависит от остатков, и остаток в момент t линейно связан с предыдущим и последующим? Оценивают Y(t)-Y(t-1)=a+dY(t-1)+e(t).
Если разность оказывается нестационарной, то заново проводим тест с трендами и константами. Тогда уже разность разностей должна быть стационарной, если ряд интегрированный второго порядка, и т.д. А конкретная спецификация ряда - это уже другой вопрос.
Оставить комментарий
Имя или ник:
Комментарий: