Доверительная оценка для неизвестной величины

Niklz

Что-то я туплю над простым вопросом, может кто-то пнет в правильном направлении.
Пусть есть некоторая фиксированная величина [math]$\mu$[/math] и у нас есть набор [math]$x_1,x_2,\dots,x_n \sim N(\mu, \sigma^2)$[/math] из n измерений этой величины которые суть нормальные случайные величины с неизвестной дисперсией и матожиданием [math]$\mu$[/math] .
Мы хотим оценить [math]$\mu$[/math] с доверительным интервалом, что в простом случае делается стандартным способом.
Всё бы ничего, но проблема в том, что измерения [math]$x_1,x_2,\dots,x_n$[/math] делаются последовательно во времени и мы точно знаем, что когда измерения близки во времени, они получаются коррелированы и точно знаем размер корреляции в зависимости от интервала времени между измерениями: [math]$\rho(\delta t)$[/math] . Мы также знаем интервалы времени между всеми измерениями. Если интервал достаточно большой, корреляции нет, но это к сожалению не всегда так.
Как в такой ситуации получить доверительную оценку для неизвестной величины/матожидания - есть идеи у кого?

Niklz

Понятно, что коррелированные измерения должны входить среднее и ст.отклонение с меньшими весами.. Но как? (c)

Polyphem

Пока не пришёл и не расписал, как нужно делать, можно попробовать подумать самому :)
Насколько корректно в твоём случае будет предположение о совместной нормальности?
Если величины совместно нормальны, то тогда по сути твой вектор [math]$(x_1, \ldots , x_n)$[/math] будет нормальным
со средним [math]$(\mu \ldots  \mu)$[/math] и известной тебе матрицей ковариации
(ты написал, что знаешь функцию [math]$\rho$[/math]) Тогда кажется, можно сделать вектор [math]$U(x-\mu)$[/math],
который бы был нормальным с нулевым средним и единичной дисперсией. Из такой статистики попытаться вытащить
доверительный интервал для среднего.

Polyphem

Слушай, а если еще проще. Почему нельзя просто рассмотреть [math]$\bar{X}$[/math].
Если предположить, что её распределение нормально (если, к примеру, наблюдения в совокупности нормальны
то будет у неё искомое среднее, а дисперсия выразится через функцию [math]$\rho$[/math]? Тот же самый стандартный метод, только дисперсия посложнее выразится. Фигню морожу?

Niklz

>>Тогда кажется, можно сделать вектор, который бы был нормальным с нулевым средним и единичной дисперсией.
К примеру, если эти величины линейно преобразовать: [math]$Ax$[/math] , то можно выбрать такую матрицу [math]$A$[/math] чтобы полученный вектор [math]$Ax$[/math] имел единичную матрицу ковариаций, то есть новые величины будут независимы.
Но тогда у и матожидание [math]$E(Ax)$[/math] у них всех будет разное.
оно, правда, будет выражаться через матрицу [math]$A$[/math] и старое матожидание [math]$ \mu$[/math] . Тогда выборочное среднее [math]$\overline{Ax}$[/math] новых величин будет распределено нормально с понятным матожиданием (средним от всех этих новых матожиданий) и понятной дисперсией(суммой квадратов новых дисперсий).
А вот как будет распределена выборочная дисперсия [math]$S(Ax)$[/math] новых величин - хрен его знает. И как будет распределена статистика [math]$({\overline{Ax}} - E(Ax/S(Ax)$[/math] - тоже.

Niklz


Слушай, а если еще проще. Почему нельзя просто рассмотреть [math]$\bar{X}$[/math].
потому что нужно еще рассматривать выборочную дисперсию - реальная нам неизвестна. в стандартном методе это обходят через t-распределение.

Polyphem

С замечанием согласен.
Не знаю, каков размер выборки в этом случае, однако если есть состоятельная оценка дисперсии, то при большом размере выборки можно использовать цпт. Так, и в станадртном методе при больших n распределение Стьюдента стремится к нормальному (соответсвующие квантили также будут сходиться).
Надо еще подумать. Задача кажется стандартной для того, чтобы придумывать велосипед

griz_a

Я правильно понимаю, что не просто [math]$X_i$[/math] нормальны, но еще и [math]$X_1,...,X_n$[/math] - многомерный нормальный вектор?

Niklz

Да, совместно они тоже нормальны.

Niklz


Не знаю, каков размер выборки в этом случае
размеры выборок невелики, в этом тоже проблема - 10-100 измерений.

griz_a

Можно взять все ту же
[math]$\frac{\overline{X}-\mu}{S \sqrt{n}},$[/math]
она уже будет не стьюдентовской, но какой-то там будет, главное, от параметров не зависит :) Квантили у нее можно методом Монте-Карло подсчитать при фиксированных корреляциях.
А можно так: положим [math]$\rho_{i,j}=corr(X_i,X_j)$[/math].
Можно взять [math]$Z=(Z_1,...,Z_n)$[/math] - стандартный нормальный вектор и представить нормальный вектор со нулевым средним и матрицей ковариации [math]$||\rho_{i,j}||$[/math], в виде [math]Y=AZ[/math]. Тогда [math]$X=(\mu,...,\mu)+\sigma AZ$[/math]
Значит [math]$\frac{\overline{A^{-1}X}-\frac{\mu}{n}\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}\rho_{i,j}}{\sum\limits_{i=1}^{n} A^{-1}X)_i-\overline{A^{-1}X})^2}$[/math] имеет распределение Стьюдента с n-1 степенью свободы.

Polyphem

А можно так

Такой же подход предлагался выше, однако, там до конечного распределения статистики не добрались. Можешь пояснить следующий момент?
имеет распределение Стьюдента с n-1 степенью свободы
Вот это не очень понятно.
Ведь, к примеру, распределение Стьюдента имеет нулевой матожидание, а у тебя, вроде, матожидание числителя не ноль. Видимо, там надо еще в сумму всунуть элеметны матрицы A.
Даже если домножим правильно, почему получится Стьюдент?

griz_a

Ой, в числителе я там не то написал, пардон. В подходе все вверх тормашками. Он пытается понять, как преобразуется оценка для дисперсии для коррелированных величин, а лучше, наоборот, сделать преобразование, приводящее выборку к независимым нормальным со средним 0 и дисперсией [math]$\sigma^2$[/math], а к ним применить лемму Фишера. Оно выражается в виде
[math]$Z = A^{-1} (X-(\mu,\mu,...,\mu$[/math] и т.к. [math]$Z_i$[/math] - н.о.р. нормальные, то
[math]$\frac{\overline{Z}}{\sqrt{\sum\limits_{i=1}^n (Z_i-\overline{Z})^2}}$[/math] будет стьюдентовской величиной. Остается подставить значения [math]$\overline{Z}, Z_i$[/math] (естественно, в знаменателе [math]$\mu$[/math].
Получится [math]$\frac{\overline{A^{-1}X}-\mu \overline{A^{-1}(1,...,1)}}{\sqrt{\sum\limits_{i=1}^n A^{-1}X)_i-\overline{A^{-1}X})^2}}$[/math]
Остается заметить, что после [math]$\mu$[/math] стоит [math]$\frac 1n\sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} a_{i,j}$[/math]

Niklz

о, спасибо, то, что надо.
>>В подходе все вверх тормашками. Он пытается понять, как преобразуется оценка для дисперсии а лучше, наоборот, сделать преобразование, приводящее выборку к независимым нормальным
не, на самом деле пятью постами выше maratus и я то же самое и думали, только не додумали, что то мне показалось что там распределения получатся сложные какие-то. что называется, глаза боятся, руки делают. спасибо!

Niklz

да, отдельное спасибо за молниеносное решение в привате :)

Polyphem

к ним применить лемму Фишера
Спасибо. Азы забываются :)

Niklz

в общем, на практике это не очень хорошо работает.
если в матрице ковариаций S есть блок сильно коррелированых измерений c ковариацией r, то матрица A получаемая из разложения Холецкого S = AA' имеет ~sqrt(r) в одной строке этого блока и ~0 в остальных строках.
тогда обратная A^(-1) в этом блоке имеет очень большие значения 10^4-10^6 разных знаков (при том, что элементы S и A порядка единицы).
соответственно, "декоррелированный" вектор A^(-1) X имеет значения того же порядка 10^4, что теоретически невозможно если он из ~N(0,1) (\mu у меня близко к 0 так что A^(-1) X тоже должен иметь среднее близкое к 0).
и соответственно, доверительные интервалы в половине случаев получаются гигантские и бессмысленные.
говоря по-простому, при наличии сильно коррелированных измерений, матрицы, кажется, плохо обусловлены.
попытка добавлять небольшое значение на диагональ A перед обращением ни к чему не привела - все равно значения в A^(-1) очень большие.

griz_a

Вообще при малом мю обратное преобразование от сильно коррелированных иксов должно быть не таким большим, это подозрительно.
Но метод к сильно коррелирующим не очень применим, конечно.
Я бы в первом приближении объединил данные на сильно коррелирующие блоки, а по ним заменял данные на средние.
Но в принципе первый метод в моем первом сообщении может помочь

vladnanu

Чтобы избавиться от таких вычислительных проблем, тебе надо выкидывать из анализа сильно коррелированые величины.
Разложение Холецкого работает по строчкам. Как только в строчке i возникает сильно маленькое значение на главной диагонали, преобразовывай исходную матрицу — выкидывай из нее i столбец и строку и запускай заново разложение Холецкого.
У тебя небольшая выборка, такие фишки должны работать.

Niklz

грубо говоря, это "выброси коррелированные измерения и используй стандартный доверительный интервал для некоррелированных", правильно? :)
так я временно и сделал для простоты. только выбросил измерения не по величине диагонали в A, а по величине корреляции между измерениями в S.
можно еще сделать как Фрау предложил - не выбросить, а усреднить коррелированные измерения.

griz_a

Никто не просит коррелированные выбрасывать. Предлагают избавиться от очень сильно коррелированных, 0.9 и менее, скажем, можно оставить

vladnanu

Нет, не совсем. Коррелированые случайные величины все-таки несут в себе какую-то новую информацию, надо ее использоватб по-максимуму.
Если не хочется возиться с Холецким, то попробуй сделать так. Пусть r таково, что C(r)=0,95 где С корреляционная функция. Тогда в анализ включай только такие точки, чтобы минимальное расстояние между парой точек было больше r. Если в разложении Холецкого будут плохие значения, то рассмотри r для корреляции 0,94 и т.д.

Niklz

ладно, это я утрирую, конечно. попробую поиграться с порогами отсечения, может перестанет матрицу A^(-1) так разносить. если не перестанет, значит где-то у меня ошибка.
Оставить комментарий
Имя или ник:
Комментарий: