вопрос про регрессию ln(y) ~ x

Niklz

Пусть у меня есть неотрицательная случайная величина [math]$y$[/math] , величина [math]$x$[/math] и я хочу получить оценку функции регрессии [math]$\mathbf{E}(y|x)$[/math] . Распределение [math]$y$[/math] очень сильно "скошено" вправо и, как обычно делается в таких случаях, рассматривается [math]$\ln y$[/math] — распределение этой величины ближе к симметричному.
Пусть [math]$\ln y = m(x) + \varepsilon$[/math] , где [math]$m(x) = \mathbf{E}(\ln y|x)$ [/math] , [math]$\varepsilon$[/math] характеризует распределение [math]$\ln y$[/math] около среденего и [math]$\mathbf{E}(\varepsilon) = 0$[/math] .
Пусть я получил оценку [math]$\hat m(x,S)$[/math] для [math]$m(x)$[/math] где [math]$S$[/math] — выборка данных (к примеру, линейная регрессия [math]$\hat m(x,S) = \beta(S)\cdot x$[/math] ) и пусть эта оценка "хорошая": несмещенная там, состоятельная и пр.
То есть [math]$\mathbf{E}_S(\hat m(x,S = m(x)$[/math] и
[math]$\hat m(x,S) = m(x) + \eta(x, S)$[/math] , где [math]$\eta(x,S)$[/math] характеризует распределение моей оценки около среднего и [math]$\mathbf{E}_S(\eta(x,S = 0$[/math] .
Вопрос, как мне теперь получить оценку для [math]$\mathbf{E}(y|x)$[/math] ?
Очевидный вариант: [math]$e^{\hat m(x, S)}$[/math] , но тогда [math]$\mathbf{E}_S(e^{\hat m(x, S)}) = e^{m(x)} \mathbf{E}_S(e^{\eta(x,S)})$[/math] , в то время как из того что выше, следует
[math]$y = e^{m(x)}e^{\varepsilon}$ , $\mathbf{E}(y|x) = e^{m(x)}\mathbf{E}(e^{\varepsilon})$[/math] .
То есть оценка [math]$e^{\hat m(x, S)}$[/math] не является несмещенной для [math]$\mathbf{E}(y|x)$[/math] .
В интернетах пишут что в этом случае надо делать bias correction (часть статей я не могу прочитать из за jstor).
И в частности, предлагается домножать [math]$e^{\hat m(x, S)}$[/math] на оценку для [math]$\mathbf{E}(e^{\varepsilon})$[/math] которую можно либо вычислить точно, предположив, что [math]$\varepsilon$[/math] распределено нормально, либо оценить как [math]$\mathrm{avg}(e^{\epsilon(S)})$[/math] где [math]$\epsilon(S)$[/math] — остатки S от регресии [math]$\hat m(x,S)$[/math] .
И вот тут меня клинит - ведь оценка [math]$e^{\hat m(x, S)}$[/math] уже дает, в матожидании, некоторый множитель [math]$\mathbf{E}_S(e^{\eta(x,S)})$[/math] , почему он игнорируется? И как, все таки, обращаться с результатами регрессии отлогирифмированной величины чтобы получить несмещенную оценку матожидания для исходной, ведь в эконометрике логарифмируют, кажется, сплошь и рядом..

griz_a

Если, скажем, оценка m асимптотически нормальна, то [math]$Ee^{\eta}$[/math] считается и его можно легко учесть.

Niklz

хрен его знает, какое распределение у \eta.. у меня есть конкретный набор данных полученный из довольно сложного реального процесса..
распределение [math]$ln(y)$[/math] нормальным не выглядит, конечно не такое скошенное как у [math]$y$[/math], но тоже кривое-косое.
регрессию я использую регуляризованную, чтобы лишние входные переменные отсечь.
так что какое теоретическое распределение в итоге у \eta - сказать мягко говоря сложно. как ты проверишь, что оно асимптотически нормально?
можно, конечно оценить распределение [math]$\hat m$[/math] бутстрапом и сразу же бутстрапом посчитать оценку [math]$\mathbf{E}(e^\eta)$[/math].. это пожалуй мысль. но как то уж очень сложно все вместе получается - посчитать оценку для [math]$\mathbf{E}(e^\varepsilon)$[/math], посчитать бутстрапом оценку для [math]$\mathbf{E}(e^\eta)$[/math], разделить на одно, умножить на другое. вроде логирифмирование призвано наоборот жизнь облегчать..
вопрос, почему нигде про это не написано, при том, что логарифмируют довольно часто на практике.

Niklz

еще ламерский вопрос - чем плохо оценивать регрессию по МНК при сильно скошенном распределении зависимой величины?
какая то численная нестабильность алгоритмов которые минимизируют сумму квадратов отклонений или есть какие то более фундаментальные нежели технические причины?

griz_a

Если [math]$ y= C e^x$ [/math], то МНК разнесет в хлам.
Что же до асимптотической нормальности - сам же сказал, что несмещенная, состоятельная и т.д. Асимптотической нормальности нету в этом т.д.? А что тогда есть

Niklz

да, ты прав, раз уж я считаю [math]$\hat m$[/math] несмещенной (хотя это не совсем так для регуляризованной регресии) пожалуй можно предположить и асимптотическую нормальность [math]$\beta$[/math] , я посмотрел, вроде она выполняется при довольно слабых условиях.
Что даже важнее, при нормальном распределении \eta: [math]$\mathbf{E}e^{\eta} \sim e^{{1\over 2} \sigma_\eta^2}$[/math], а при линейной модели [math]$\hat m$[/math] верно [math]$\sigma_\beta\sim {1\over\sqrt{n}}$[/math] где n - размер выборки. То есть при большой выборке (а у меня n~50K) и линейной модели дисперсия оценки [math]$\sigma_\eta$[/math] довольно мала и [math]$e^{{1\over 2} \sigma_\eta^2}\approx 1$[/math].
Думаю эти соображения можно использовать и при ненормальном распределении. Интуитивно понятно, что если модель линейная и выборка очень большая, то дисперсия оценки в точке должна быть очень мала, а дисперсия шума она и есть дисперсия шума - от размера выборки не зависит, то есть [math]$\mathbf{E}e^{\eta}$[/math] в первом посте можно пренебречь и действительно корректировать результаты регрессии только на множитель [math]$\mathbf{E}e^{\varepsilon}$[/math].
Спасибо за толчок в правильном направлении :)

Niklz


Если [math]$ y= C e^x$ [/math], то МНК разнесет в хлам.
ну а что значит разнесет в хлам, теоретически же он даст тебе несмещенную оценку если ты и модель выберешь [math]$ f(x)= C e^x$ [/math] :)

griz_a

Несмещенная - да. Но очень неустойчивая к выбросам. Любой "выброс", поставленный в экспоненту, перекосит прямую регрессии очень сильно.

Niklz

на таком то уровне я и сам понимаю, а более-менее строгих обоснований типа "чем более скошено распределение \epsilon в модели y = f(x) + \epsilon, тем больше вариация оценки f(x).." не встречалось.
Оставить комментарий
Имя или ник:
Комментарий: