помогите создать модель

Dima73

или посоветуйте что почитать по теме.
постановка задачи.
Есть две матрицы A и B. Шапка столбцов - пятилетка. Шапка строк - наименование однотипных промышленных предприятий. Предприятия в матрицах совпадают. Элементы матриц - потребление воды за соответствующий год. Матрица A является официальным документом, но на каждом предприятии заполнялась своя строка криворукими людьми. Матрица B заполнялась другими криворукими людьми на предприятиях. Т.е., потребления воды по 2 разным источникам немного отличаются. Требуется построить суммарное потребление всех заводов по официальным данным (матрица А) с некоторым "доверительным интервалом", т.е., точки аппроксимировать прямой, которую продлить на следующий год, и предсказать вероятное потребление воды плюс минус возможное отклонение.
Спрашивается, как корректно найти это отклонение. Мне пришло в голову только одно - построить матрицу модулей разности элементов А и B (т.е. ошибки источников потом предположить, что на каждом заводе в каждый год заполняющие случайно ошибались, и найти среднюю ошибку и дисперсию средней ошибки по каждому предприятию (получаю столбец средних ошибок и столбец дисперсий). Полагая независимость предприятий, усредняю (так можно делать?) средние ошибки и складываю дисперсии. Получаю среднюю ошибку плюс минус корень из суммарной дисперсии. Можно ли доверительный интервал на аппроксимирующей прямой строить как +-3*(средняя ошибка+корень из суммарной дисперсии)?
Еще есть вариант попробовать поковырять матрицу (A_ij-B_ij)/(A_ij+B_ij)
Мож что еще подскажете?

Dima73

еще есть мысль посмотреть, описывается ли матрица ошибок гауссом, т.е. ошибки распределены нормально

BSCurt

А сильно ли различается потребление одного завода за разные годы?

Dima73

от 5 до 15%. Исследуемая проблема больше все же сводится к тому, что объективно полученные данные заполнителями с ошибками заполнялись в таблицах (учет или неучет продаж на сторону, потери, воровство и проч. и я пытаюсь извлечь из них разумное зерно

griz_a

Много всяких вопросов и но.
Одинакового ли порядка потребления заводов? Если разного, то их явно нужно кластеризовать по потреблению и внутри каждого кластера работать отдельно.
Одинакового ли порядка расхождения. Опять же может оказаться, что имеет смысл разбить заводы на группы с отклонением одного порядка.
Целесообразно ли с точки зрения здравого смысла считать ошибки у предприятий из одного кластера одинаково распределенными? Если да, то можно проверять их на нормальность, строить гистограмму, если нормальность подтвердить, то оценивать внутриклассовую дисперсию, а затем складывать их по разным классам.
Оставить комментарий
Имя или ник:
Комментарий: