Сфера применения метода наименьших квадратов

amg81

ТЕМА ЗАКРЫТА
Может ли кто-нибудь подсказать каково минимальное количество точек (x;y) начиная с которого применим метод наименьших квадратов для линейной аппроксимации зависимости y(x)
Спасибо.

griz_a

!

griz_a

Все дело в том, что вопрос дебильный.
МНК - это просто метод минимизации определенной ошибки. Решение методом МНК минимизирует ее всегда.

amg81

Все дело в том, что вопрос дебильный

Спасибо за ответ ! :smirk:
Дело в том что есть человек, который настаивает что нужно минимум пять точек, поэтому хотелось бы узнать, откуда это берётся, если это так (если где-то есть доказательство ...).
Я понимаю, что формально можно применить МНК и к 3, и к 4 точкам, вопрос в том имеет ли это значение ? И если нет, то почему ? Откуда берётся 5 ?

griz_a

Еще раз! МНК - это метод, минимизирующий сумму квадратов отклонений. Он минимизирует ее всегда. Для двух точек она будет вообще нулю равна, шикарно ведь :)
Как быстро прямая начнет стабилизироваться? Не очень быстро, конечно, там же суммы квадратов, они очень плохо себя ведут при случайных отклонениях.
Одна неудачная точка уведет всю нашу прямую в сторону. Так бывает и при 20 точках.
При четырех точках, скажем, есть вероятность 1\16, что все отклонения будут в одну сторону.

fhfoihjkjhgjy

Я правильно понимаю, что речь идет о следующем:
есть серия экспериментов, наблюдаемые величины в которой подчиняются закону y = k*x+b
И задача заключается в нахождении k (ну и еще b, возможно). Тогда вопрос состоит в том, какое минимальное количество экспериментов нужно сделать?
Если так, то чем больше, тем лучше. Но больше - не всегда лучше с других позиций :)
Число 5 - наверное, самое распространенное количество экспериментов в серии для нахождения параметров линейной зависимости.
А про математическую сторону вопроса тебе уже сполна ответили :)

amg81

Спасибо за конструктивный ответ :D !
Я правильно понимаю, что речь идет о следующем:
есть серия экспериментов, наблюдаемые величины в которой подчиняются закону y = k*x+b
И задача заключается в нахождении k (ну и еще b, возможно).

Да, плюс коэффициент корреляции r
Вопрос в следующем :
Почему при МНК-прямой, построенной на 5 или более точках и корреляции между наблюдаемыми величинами x и y равной, скажем 0.99, я могу утверждать, что x и y коррелированны с коэф. корр. 0.99, а при "МНК" на 4 и менее точках и формально вычесленной по МНК корреляции 0.99, я вообще ничего не могу утверждать о коррелированности x и y даже если формально r=0.99
Заранее благодарю. Надеюсь не утомила :D

griz_a

 
Почему при МНК-прямой, построенной на 5 или более точках и корреляции между наблюдаемыми величинами x и y равной, скажем 0.99, я могу утверждать, что x и y коррелированны с коэф. корр. 0.99, а при "МНК" на 4 и менее точках и формально вычесленной по МНК корреляции 0.99, я вообще ничего не могу утверждать о коррелированности x и y даже если формально r=0.99

Первое утверждение неверно.
Вернее так, если речь идет и тут и там об одной и той же корреляции одних и тех же величин, то оно представляет собой утверждение "Почему если А, то А" и выполнено в обоих случаях.
Если речь все-таки о выборочной корреляции и обычной, то утверждение неверно.

amg81

Спасибо.
Вернее так, если речь идет и тут и там об одной и той же корреляции одних и тех же величин, то оно представляет собой утверждение "Почему если А, то А" и выполнено в обоих случаях.

Да, я действительно неточно выразилась, прошу прощения.
Речь идет о выборочном коэффициенте корреляции, даже скорее о коэффициенте детерминации для линейной немножественной (парной) регрессии.
Цель : показать что данные достоверно описываются линейной моделью найденной по МНК ( r или R^2 как критерий адекватности линейной модели ...)

seregaohota

в учебном юморе была, кажется, картинка на эту тему, где две экспериментальные точки и докладчик типа аспиранта говорит про хорошее согласие с какой-то офигенной теоретической кривой :)

griz_a

Я боюсь вы переоцениваете мощь статистического аппарата (в частности регрессионного). Вы проверяете гипотезу о соответствии линейной модели вашим данным. Альтернатива у вас - несоответствие. Это очень широкая альтернатива, поэтому ошибка второго рода может сколь угодно близко к единице приближаться.
Единственное, что вы можете сделать наверняка - это понять, что у вас если линейная модель и есть, то чудовищная дисперсия.
Можете рассмотреть полиномы какой-то небольшой по сравнению с выборкой степенью и понять, что полиномы степени больше первой приближают данные гораздо более удачно чем прямая и по критерию Фишера отвергнуть гипотезу о принадлежности данных к линейной модели при альтернативе полиномиальной
Можете то же самое сделать при каком-нибудь другой альтернативе (только не слишком обширной, потому что среди всех функций мира есть крайне много идеально описывающих ваши точки - просто через них проходящих).
Вы можете отвергнуть гипотезу, а можете не отвергнуть, но показать, что она "достоверно" верна без четкой альтернативы - это пардоньте :(
Может быть на самом деле там не прямая, а кусок прямой, а дальше он к бесконечности растет как экспонента, просто у вас данных из той области, где он растет экспоненциально, не было, потому что они там редко бывают.

Natasha80

В таких проверках гипотез цель всегда обратная - достоверно отвергнуть гипотезу и лин. зависимости или о конкретном значении коэффициента. Если достоверно отвергнуть не удалось - то и результата никакого нет. На 5 точках никаких гипотез в любом случае нормально не проверить, здесь регрессия может использоваться просто для некоторых простых оценок-прогнозов.

griz_a

 
В таких проверках гипотез цель всегда обратная - достоверно отвергнуть гипотезу и лин. зависимости или о конкретном значении коэффициента.

Типа комментарий от кэпа? :confused:
 
В таких проверках гипотез цель всегда обратная - достоверно отвергнуть гипотезу и лин. зависимости или о конкретном значении коэффициента. Если достоверно отвергнуть не удалось - то и результата никакого нет. На 5 точках никаких гипотез в любом случае нормально не проверить, здесь регрессия может использоваться просто для некоторых простых оценок-прогнозов.

И на трех можно
(0,0) (1,100000) (2,0) - хрень а не линейная регрессия.

amg81

День добрый !
Спасибо всем кто посвятил свое время тому что бы прочитать тред и ответить.
Видимо вся проблема действительно в постановке вопроса.
Альтернатива у вас - несоответствие. Это очень широкая альтернатива

Согласна. НО:
1. По поводу линейности модели: линейность - это априорная информация (по своей природе x и y должны быть линейно зависимы линейный характер не обсуждается.
Вопрос в том, чтобы показать что именно прямая y=a1*x+b1 а не какая-то другая y=a2*x+b2, с другими коэффициентами a и b, описывает линейную зависимость между x и y
То есть нужно показать достоверность описания прямой y=a1*x+b1 по отношению к какой-то другой прямой y=a2*x+b2, построенной на большем количестве точек, но с меньшим R^2, с большей дисперсией, и самое главное, с точками, выходящими за 3*sigma, но однозначно не по отношению к нелинейному описанию y(x).
2. Еще точнее :
Есть N экспериментальных точек y и N однозначно соответствующих им теоретических точек x.
По этим точкам (xi,yi) я строю прямую по МНК, проверяю коэффициенты a и b на значимость, рассчитываю R^2 и отбрасываю точки выходящие за 3*sigma , т.е. промахи, потом по оставшимся точкам строю новую прямую по МНК, и все описанное выше проделываю снова, до тех пор пока все точки не начнут укладываться в 3*sigma, а еще лучше и в две, если точек мало. R^2 вестимо при этом повышается, по сравнению с начальным.
Допустим при этом остаётся либо 5, либо 4 точки, по которым я получаю свою прямую по МНК.
Я рассматриваю 5 точек конечно же не как ДОСТАТОЧНОЕ условие, а как НЕОБХОДИМОЕ.
Т.е. если у меня остается 4 точки, входящие в 2*sigma, даже с хорошим R^2 и низкой дисперсией, я не могу по этой калибровке утверждать что зависимость такая, какая получена по "МНК", что модель описывает зависимость y от x с таким то R^2, а все точки что я выбросила - промахи.
Вопрос : почему только начиная с 5 точек (как необходимое условие, не обязательно как достаточное) я могу говорить что остальные отброшенные точки - это промахи ?
Вот как-то так

LENA-AKULA

1!
Ну, справедливости ради, по одной точке ты однозначно k и b не определишь :)

griz_a

По поводу линейности модели: линейность - это априорная информация (по своей природе x и y должны быть линейно зависимы линейный характер не обсуждается.

А нормальность тоже априорная?
Вопрос в том, чтобы показать что именно прямая y=a1*x+b1 а не какая-то другая y=a2*x+b2, с другими коэффициентами a и b, описывает линейную зависимость между x и y

Именно не получится, получится примерно. Для уточнения примерности можно воспользоваться доверительными интервалами для коэффициентов, гуглится легко.
Есть N экспериментальных точек y и N однозначно соответствующих им теоретических точек x.
По этим точкам (xi,yi) я строю прямую по МНК, проверяю коэффициенты a и b на значимость, рассчитываю R^2 и отбрасываю точки выходящие за 3*sigma , т.е. промахи, потом по оставшимся точкам строю новую прямую по МНК, и все описанное выше проделываю снова, до тех пор пока все точки не начнут укладываться в 3*sigma, а еще лучше и в две, если точек мало. R^2 вестимо при этом повышается, по сравнению с начальным.

Если есть выбросы, то зачем использовать МНК? Почему не метод Тейла, к примеру?
Т.е. если у меня остается 4 точки, входящие в 2*sigma, даже с хорошим R^2 и низкой дисперсией, я не могу по этой калибровке утверждать что зависимость такая, какая получена по "МНК", что модель описывает зависимость y от x с таким то R^2, а все точки что я выбросила - промахи.

Отбрасывать выбросы, оставляя четыре точки - это вынос мозга :ooo: О каких тогда выбросах идет речь, интересно?

griz_a

Метод МНК-то применим, просто дает несколько результатов.
К тому же линейная аппроксимация бывает разной, иногда априорная информация о прохождении через 0 есть.

amg81

 
А нормальность тоже априорная?

что есть нормальность ? Распределение для каждой экспериментальной точки yi ?
 
Именно не получится, получится примерно

Это подразумевалось, как мне кажется
 
Если есть выбросы, то зачем использовать МНК?

А как я обосную иначе что это выбросы ? Ведь выбросы определяются по отношению к чему-то
 
Почему не метод Тейла, к примеру?

Это тот метод в котором через каждую пару точек проводится прямая и потом строится распределение коэффициентов ? В принципе действительно неплохо, тем более что позволяет выяснить действительно ли прямая одна или их несколько. Может быть в итоге так и сделаю...
Правда погуглив немного, нашла что метод хорош только для большого числа точек.
 
Отбрасывать выбросы, оставляя четыре точки - это вынос мозга

Да, так и есть
Просто в некоторых случаях их всего 6-7 ... (ничего с этим не могу поделать, это не от меня зависит)
Вообще не хотелось бы смешивать эти вопросы с вопросом о минимальном кол-ве точек

griz_a

Вопрос выбора выбросов из 6 точек становится бессмысленным с математической точки зрения и переводит вас в задачу о вере, принципах и идее :)
Строить МНК оценку по 6 точкам и две из них отбрасывать - это точно дурь.

griz_a

А вообще порочность такой МНК-фильтрации данных понять просто. Берем 10 данных. Первые 6 сосредоточены около нуля, еще есть точки (5, 5 (10, 11 (9.9, 10.9) и (10.5, 100)
Строим прямую методом МНК, ее очень сильно поднимает из-за последнего элемента (явного выброса после чего для такой прямой выбросами для кучи оказываются (10,11) и (9.9, 10.9). Остается прямая по куче точек в нуле и одной (5,5). Прямая выходит, фактически, ориентируется на единственное число (5,5 которое могло быть и заниженным относительно прямой.
Лучше выбросы фильтровать до МНК оценок, к примеру, тем же Тейлом, а потом можно уже и мнкшить

amg81

Спасибо всем за ответы.
Особая благодарность .
Тема закрыта.
Оставить комментарий
Имя или ник:
Комментарий: