Статистики, помогайте!!!

stat3032681

Учавствую в статистическом соревновании по автоматической оценке сочинений (http://www.kaggle.com/c/asap-aes). Efimov-Berengueres - это наша команда, мы сейчас на четвертом месте. Буду очень признателен любому совету, как предсказать оценку сочинения. Нужен свежий взгляд на проблему.
Дано: тренировочный набор сочинений на заданную тему с уже известными оценками.
Надо: предсказать оценки для тестового набора.
Задача состоит из двух частей:
1) Понять, какие характеристики сочинений использовать для предсказания.
2) Какие статистические методы использовать для классификации и регрессии.

Vlad128

а тупо там орфографию проверяете? очевидно, конечно, но просто интересно, что вы делаете :)

Martika1

Если речь об американских сочинениях, используй средний IDF / средний IDF верхнего процентиля / ... Американцы считают плюсом, когда в сочинении много умных слов. Разумеется, надо выкидывать слишком высокие IDF, т.к. они могут свидетельствовать об ошибках (впрочем, decision trees могут и сами обнаружить такую немонотонность). Можно также посмотреть процент слов с греческими и латинскими корнями, распределение слов по длине.
Если речь о французских сочинениях (твой Берангер это должен знать лучше меня то они должны быть чётко структурированы: введение, тезис, антитезис, синтез. Можно рассмотреть согласованность оборотов: если ученик пишет "во-первых", а затем - "а также", или сначала "с одной стороны", а потом - "с другой точки зрения", ему могут снизить балл.

stat3032681

да, ищем количество слов из словаря, но корреляция не слишком большая между оценкой и количеством опечаток

stat3032681

сочинения очень низкого уровня, скорее всего, школьные, поэтому корреляция между средним idf или средней длиной слов очень низкая... даже если посчитать просто сумму всех idf для каждого сочинения, то корреляция будет ниже, чем просто между длиной сочинения и оценкой
одна из проблем в том, что есть два проверяльщика, которые ставят оценки независимо, а результат суммируется, при этом, корреляция между оценками проверяльщиков 0.75, т.е. тоже не очень высокая... насколько я понимаю это вносит случайность в оценку.... я сейчас не пойму, можно ли как-то это случайность использовать для предсказания?

griz_a

От того, что результат получен двумя проверяльщиками и усреднен меняется только одно, дисперсия оценки уменьшается. В остальном можно смотреть на эти полусуммы как на элементы некой выборки.
Вообще не видя данных и специфики их, говорить, что делать - дело дохлое. Наверное, стоит начать с эллипсоида рассеивания и определить, какие из имеющихся параметров значимы.

stat3032681

он не усреднен, а именно суммируется
эллипсоид рассеивания может помочь определить особые точки, а каким образом он может помочь определить важность параметров? скорее всего, может помочь метод главных компонент, но он не помогает, потому что в основном все параметры очень сильно корреллируют друг с другом, поэтому метод главных компонент дает первую компоненту с очень высокой корреляцией, а остальные с низкой...

griz_a

эллипсоид рассеивания может помочь определить особые точки, а каким образом он может помочь определить важность параметров? скорее всего, может помочь метод главных компонент

:confused:
А главные компоненты это, по-вашему, что такое? Может стоит начать с того, что разобраться кто есть кто?
потому что в основном все параметры очень сильно корреллируют друг с другом, поэтому метод главных компонент дает первую компоненту с очень высокой корреляцией, а остальные с низкой...

Есть такое понятие исключенных корреляций.

stat3032681

ну вроде в английской литературе такого термина как эллипсоид рассеивания я не встречал, поэтому для меня это разные вещи :)
а что такое исключенные корреляции? где про это можно почитать? я правильно понимаю, что это когда в методе главных компонент выбирается первая компонента, а на основе неиспользованных параметров снова строятся главные компоненты, или это что-то другое?

griz_a

То же, что и частные корреляции:
Вики
Возможно, кстати, стоит пользоваться ранговыми корреляциями, если выборки не очень-то нормальны
Оставить комментарий
Имя или ник:
Комментарий: