Определить значимость средних значений

gfr00000000036

Есть 16 выборок по 30 значений в каждой. Все значения строго неотрицательные, в некоторых выборках много нулевых значений. Распределения величин неизвестны (на qq графике не похожи почти ни на какие аналитические). Не очень понимаю, как оценить значимость средних выборочных значений (отличие от 0): Вилкоксона, я так понимаю, нельзя применять, тк распределение не симметрично относительно 0. Если посчитать средние значения и стандартные отклонения по выборкам, то много где разность среднего и ст. отклонения < 0, то есть интервал содержит нуль... Можно ли это считать мерой значимости?

griz_a

Давайте разберемся с задачей.
Итак, у вас есть 16 выборок по 30 значений из какого-то распределения (тогда, наверное, просто выборка из 480 значений, зачем ее делить). Или у вас выборки из разных распределений и вы про каждое хотите? Тогда забудем про то, что их 16, просто 30 значений.
У вас все значения неотрицательны. Это так чисто физически? Тогда странная задача о проверке равенства нулю среднего у неотрицательной величины. Или это так чудесно совпало и из 480 значений все оказались неотрицательными?
Сами выборки какого характера? Что-нибудь известно про распределение?
Уилкоксон или критерий знаков так просто тут не годятся - там нужна какая-то структура распределения, сравнивать среднее с отклонениями (тогда уж не с одним, наверное, хилый уровень значимости будет) годится только для если вы тип распределения знаете и оно правильного вида (сдвига-масштаба).

gfr00000000036

Да, выборки из разных, не связанных распределений, 30 значений. Сами величины - значения Шенноновской энтропии (точнее, Transfer Entropy она по определению неотрицательна. 30 значений относятся к 30 различным объектам, то есть они независимы. Надо понять, значимо ли по всей группе энтропии отличаются от 0. Вроде бы логично, что если величина неотрицательна, то так и должно быть, смущает то что по выборке стандартное отклонение имеет порядок среднего, то есть интуитивно кажется, что такие значения могут быть случайными из-за большого разброса. Про распределения ничего не известно, визуально смотрел на гистограммы, они сильно разные и ни на что не похожи, пробовал подгонять распределения Матлабом, он где-то выдает логнормальное, где-то - экспоненциальное, а где-то вообще бета :)

sveta555

данные говно, я щетаю
30 значений мало, из-за этого много думать придётся
попробуй раскубатурить ДО ТЫСЯЧИ
PS: или 30 это размерность задачи и её наоборот хочется уменьшить?

sveta555

я обычно энтропию наяривал "по номеру сита", но 30 это же вобще мало
идея такая, если взять кристал кокса и отхерачить его молотком, то получившийся порошочек распределен по вейбуллу, что не вдаваясь в детали отсылает непосредственно к transfer entropy
вот тут неплохо написано http://ru.wikipedia.org/wiki/%D0%E0%F1%EF%F0%E5%E4%E5%EB%E5...

griz_a

. Надо понять, значимо ли по всей группе энтропии отличаются от 0.

Во-первых, непонятно что такое "значимо по всей группе". Это в смысле уровень значимости гипотезы "все равны нулю"?
Во-вторых, непонятно где здесь случайность? Энтропия измеряется со случайным отклонением, причем распределение отклонения зависит от энтропии, раз мы ниже 0 не опускаемся?

gfr00000000036

) Я не очень уверен насчет формулировки нулевой гипотезы, но задача - понять, случайно или нет по группе это значение отличается от нуля (может быть, среднее или медиана...)
2) Энтропия рассчитывается из экспериментальных данных - временных рядов, для расчета есть несколько эстиматоров (более и менее устойчивые и несмещенные в зависимости от природы данных). Как я понимаю (не встречал расчет энтропии со случайным отклонением можно посчитать энтропию условно между двумя рядами и сказать, значима ли она (или 0 причем для некоторых видов эстиматоров она значима всегда когда существует (т.е. >0). Вот у меня такой случай, и например в 10 случаях из 30 она = 0, а в остальных 20ти >0.
Я попробовал на суррогатных данных (гда заведомо все значения должны быть 0) среднее и медиану в выборке из 30 величин. Получилось что средние всегда положительны, хоть и малы (во всех 16 реализациях а вот медиана всегда дала строго нуль.

griz_a

Несмещенная оценка с неотрицательными значениями для параметра, равного 0, может быть только 0.
Поэтому тут какая-то подмена понятий

gfr00000000036

Про несмещенность я наверно загнул, сейчас еще поизучаю методическую статью. Но может же быть так: у 10 объектов выборки истинное значение параметра = 0 и оценка 0, у остальных не 0 и оценка >0. Какой-то вывод мы можем сделать из этого?

Sensor4ik

На этот вопрос специалист по статистике тебе ответить не сможет. Этот вопрос нужно задать в первую очередь себе: а что у меня в качестве контрольного эксперимента? Какие значения случайной величины (энтропии) я получаю для нулевой гипотезы (опыт не отличается от контроля)?

gfr00000000036

Да, спасибо, я в этом направлении и думал. Сгенерировал суррогатные данные, где зависимостей точно нет и энропия должна быть строго нуль. Посчитал оценки значений, некоторые, как и следовало ожидать, были положительными. Затем составил разности между энтропиями для реальных данных и суррогатных, и вот эти разности уже очень хорошо описываются нормальным распределением. Принял за нулевую гипотезу, что среднее в нуле и дальше по Стьюденту... Вроде все верно? Или что-то упустил?

Sensor4ik

По мне, так это разумный подход. Но ждем комментария Фрау, у него на этот счет могут быть свои соображения.

griz_a

Сгенерировал суррогатные данные, где зависимостей точно нет и энропия должна быть строго нуль. Посчитал оценки значений, некоторые, как и следовало ожидать, были положительными

Недавно утверждалось, что распределения бывают самые разные, то бета, то логнормальные. Тогда суррогатные данные могут оказаться не с тем распределением? Или все же распределение у них более-менее одно?
Нормальность хорошо подходит по каким критериям?
Можно ли посчитать среднее значение энтропии для суррогатных данных и вычитать его? Это лучше, чем выборку зашумлять без толку. Или все же суррогатные данные как-то зависимы с несуррогатными?
Оставить комментарий
Имя или ник:
Комментарий: