Отбросить недостоверные результаты измерений

stm2383383

Обрабатываю результаты измерений. Значения достаточно сильно варьируют от одной точки к другой. Если я не ошибаюсь, то существует правило, согласно которому, значения, отклоняющиеся от нормы слишком сильно, в дальнейших расчетах не учитываются.
Не могли бы вы подсказать, как именно посчитать, какие значения надо выкинуть. Или посоветуйте простенькую книгу, где бы это описывалось. Надо что-то не очень глубокое, типа пособия. Потому как обработать данные надо в ближайшие дни.

griz_a

Вы очень общий ответ хотите.
Ну да, выбросы надо отфильтровывать, но что считать выбросом - вопрос непростой, связанный с тем, что у вас за данные

a7137928

Ну есть классический метод "три сигмы": считаешь стандартное отклонение, все что находится дальше трех отклонений от среднего, считается выбросом.
Но, естественно, втупую это правило применять нельзя, поскольку оно работает для нормального распределения и для похожих на него. Т.е. для унимодальных симметричных распределений с легкими хвостами.
Другой классический метод - отрезать процентили с концов. Т.е. ты отсекаешь, к примеру, по 2,5% самых маленьких и самых больших значений выборки. Подходит для распределений с тяжелыми хвостами. Но если будешь пытаться применять к равномерному распределению, получится некрасиво :)
В общем, все зависит от типа распределения. Если тебе что-то про него известно (или становится известно при взгляде на гистограмму то можно уже думать.
А вообще, если тебе нужно просто посчитать какое-нибудь среднее, но мешают выбросы, то можно обойтись без их выкидывания. Часто вместо среднего берут медиану - если тебе нужна какая-нибудь "средняя циферка", то часто это сгодится, а на выбросы ей пофиг. Ну и еще, если у тебя распределение по типу лог-нормального (одностороннее, с очень тяжелым хвостом, т.е. с очень большими выбросами то тебе может помочь логарифмирование всех значений.

stm2383383

В общем, у меня такой вот результат:

Здесь звездочками отмечены измерения, а кривая - теоретический расчет (на красный крест не обращайте внимания). Могу ли я здесь выкинуть некоторые "зашкаливающие" значения? (конкретно здесь, природа зашкаливания может носить характер помехи).

mab1

как-то твоя теоретическая кривая адекватной не кажется. Можешь повыкидывать выбросы по трем сигмам, Шовене или как-нибудь еще, но я бы на твоем месте сначала поискал ошибку в теории.

stm2383383

Ошибки в теории нет. Это точность экспериментов. В принципе, левая часть точек может быть выкинута смело, т.к. при их определении было сделано одно не очень справедливое допущение. Однако не хотелось бы ее терять, а хотя бы в таком мутном виде представить. Вот и думаю, как лучше сделать :)

mab1

дело в том, что у тебя и в правой части теория не ахти как согласуется с данными. А левая часть тоже на выбросы не похожа, смахивает больше на систематические осцилляции.

Sander

советую собрать больше экспериментальных данных
хотя бы для того, чтобы видна была точность измерений в одних и тех же значениях по оси x

Vlad128

Из 4х измерений одно выбрасывать все равно не круто :D

stm2383383

Решено левую часть выкинуть. Так что все нормально (в пределах требуемой точности).

ereyzer

Могу ли я здесь выкинуть некоторые "зашкаливающие" значения?
Да, поищи в гугле про resistant regression fitting algorithm - он как раз для таких случаях используется - я его постоянно применяю.

stm2383383

Уже на правах не вопроса, а одного наблюдения:
попалась мне на руки книга "Общая теория статистики", автор Ряузов Н.Н., год издания 1984.
Маленький кусочек оглавления и понемногу текста из некоторых разделов:
1. Роль и значение статистики.
Статистическая теория и практика зависят от характера общественного строя, при котором функционирует и развивается статистика. Статистика Советского Союза - самая передовая статистика в мире. Она основывается на подлинно научном учении основоположников марксизма-ленинизма о законах развития общества и существует в условиях самого передового развитого социалистического хозяйства. (и т.д.)
2. Статистика в капиталистическом обществе.
3. Апологетическая сущность буржуазной статистики.
Ясно, что буржуазия не заинтересована в том, чтобы с помощью статистики обнаружились язвы и болезни капитализма и трудящиеся видели противоречия, свойственные капитализму. ... Буржуазная статистика дает много цифр, но если в них разобраться, то окажется, что в буржуазном государстве развитие статистики, по существу, ограничивается минимальным количеством необходимых показателей, причем эти показатели обрабатываются так, что они приукрашивают действительность. (и т.д.).
4. Статистика в социалистическом обществе.
Совершенно иное положение статистики в условиях социалистического строя. ... Это обусловлено плановой природой социалистического хозяйства, действием объективных законов социализма. ... В силу этого в условиях социалистического строя исчезают преграды для развития статистики, которые в капиталистическом обществе порождены частной собственностью, конкуренцией, стремлением к наживе, классовой борьбой.
Жесть, конечно! Не думал, что такую нейтральную науку как статистика, можно ввязать в войну режимов.
Хотя, если отбросить муар пафосных слов, то некоторые здравые идеи есть. В большей степени это относится к искривленной подаче некоторых цифр (но этим и СССР славился и особенно это развито у маркетологов, которых в социалистическом строе фактически не было.

ereyzer

А, ещё: чтобы определить, какие именно точки нужно выкинуть, необходимо посчитать их ошибки, а на твоём графике их нет.
Например, если все измерения имеют одинаковые погрешности, то хочется выкинуть вторую и третью точки, но если их ошибки гораздо меньше, чем у тех точек, что лежат возле кривой, то эти измерения будут иметь бОльшую статистическую достоверность, хотя на глаз и кажется обратное.
Про это и многое другое интересно и подробно описано в этой книжке - всячески советую:
COMMON ERRORS IN STATISTICS (AND HOW TO AVOID THEM)
Phillip I. Good James W. Hardin
Published by John Wiley & Sons, Inc., Hoboken, New Jersey.
ISBN 0-471-46068-0

stm2383383

Спасибо большое, поищу ее :)
Оставить комментарий
Имя или ник:
Комментарий: