Инструментальный анализ / метод главных компонент

cvii

Всем привет!
Сейчас начал делать задачу - нужно объяснить переменную y через переменные x1, x2, ..., xn. Проблема в том, что переменные x сильно коррелированы, но каждая по отдельности плохо объясняет y. Попробовал методом главных компонент выделить из x1 - xn одну переменную и построить регрессию, в принципе результат стал лучше, но пока неудовлетворительный. Но метод главных компонент никак не учитывает y, и как мне кажется его можно улучшить, если найти некую комбинацию переменных X, у которой наибольшая корреляция с y. В связи с этим вопрос - есть ли какой-то метод нахождения такой комбинации (если да, то как называется или коэффициенты этой комбинации - это и есть коэффициенты при множественной регрессии? Стоит ли вообще проводить такой анализ, или множественная регрессия все равно дает лучший результат?

griz_a

Для выделения подпространств и регрессии на них есть стандартный метод понижения размерности и критерий фишера для проверки его эффективности.
Но если уж хочется с корреляциями играться - можно брать частные корреляции и сравнивать их с исходными.

Niklz

когда входных переменных много и они коррелированы, т.е. обращаемая матрица [math] $\mathbf X^T \mathbf X $[/math] в линейной регрессии близка к сингулярной, обычно используют регуляризированную регрессию: [math]$ \min_{\mathbf\beta} \left( (\mathbf{y  -  X\cdot \beta})^2 + \lambda \| {\mathbf\beta} \|^2 \right) $ [/math]
эффективно такая регуляризация уменьшает коэффициенты при тех переменных, по которым мала вариация выходной переменной. в статистике такую регрессию еще называют ridge regression.
решение там вроде [math]$ \beta = (\mathbf X^T \mathbf X - \lambda\mathbf I)^{-1}\mathbf X^T \mathbf y $[/math] то есть просто добавляешь небольшую константу \lambda к диагонали обращаемой матрицы

kshangin

Кажется, классика по этой теме
http://www.iasbs.ac.ir/chemistry/chemometrics/history/4th/5....
Оставить комментарий
Имя или ник:
Комментарий: