Улучшение прогноза с помощью ранжирования

soldatiki

Есть игровой автомат, который при каждом запуске выдает вещественную случайную величину X, если X > 0, то говорят, что произошел "рост", если X < 0 - то "падение".
Игрок играет, делая вещественную ставку S (может быть больше или меньше нуля). Выигрыш игрока определяется как S * X.
Имеется оракул, выдающий прогноз Y - вещественную случайную величину, положительно коррелированную с X.
Известно, что оракул "не очень точный": если играть по оракулу, скажем, делая каждый раз ставку sign(Y то получаем ожидание выигрыша M и стандартное отклонение D, где M не достаточно велико по сравнению с D.
Теперь пусть у нас есть одновременно N одинаково распределенных и, возможно, кореллированных игровых автоматов. Пусть также оракул может давать прогноз про каждый из автоматов.
Усредняя наши ставки по ним, мы все равно получаем недостаточно хорошее соотношение между ожидаемым выигрышем M и разбросом D.
Пусть теперь Y(i) - набор прогнозов для автоматов.
Вопрос: как изменится результативность игры (в терминах M и D если:
1) делать ставку -1 для "лузера" argmin(Y +1 для "лидера" argmax(Y 0 для остальных автоматов
2) делать ставки пропорционально "рангу" - величине r = k / N - 0.5, где k - порядковый номер в сортированном наборе Y(k)
3) делать ставки пропорционально отклонению Y(i) - median(Y)
Можно ли такими способами улучшить результативность игры и если да, то как количественно оценить улучшение?

griz_a

Пусть в пространстве элементарных исходов три равновероятных исхода. На первом X = 1000, Y = 1, на втором X = 4, Y = -5, на третьем X = -5, Y = 4
Корелляция большая, а толку нет
Тогда 1 работает ужасно, 3 ужасно, а 2 работает не ужасно только потому, что ты неправильно прикинул, что вычитать, надо было не 1/2, а (N+1)/(2N)

soldatiki

Подожди, а что не так в формуле r = k / N - 0.5? "Фаворит" прогноза получает +0.5, "предполагаемый лузер" -0.5, медианный получает ставку 0, остальные - промежуточные.
Кстати, в этой формуле ставки можно "нормировать", напрмер, поделить весь капитал между ставками пропорционально r. Так что 0.5 тут, имхо, не принципиально.

soldatiki

Насчет того, что корреляция - фиговая мера "угадывания" - да.
Тогда пусть условие на игровой автомат такое: x(i) = +1,-1 или 0. А оракул по-прежнему выдает прогноз с разным "уровнем уверенности" y(i) in R.
Можно ли тогда что-то сказать?

griz_a

Подожди, а что не так в формуле r = k / N - 0.5? "Фаворит" прогноза получает +0.5, "предполагаемый лузер" -0.5, медианный получает ставку 0, остальные - промежуточные.

Лузер получит не -0.5, у него ранг 1. Получит какую-то странную 1/N-1/2. Это странно.
И медианный получит не 0, если медиана из выборки, то она (N+1)/2
Тогда пусть условие на игровой автомат такое: x(i) = +1,-1 или 0. А оракул по-прежнему выдает прогноз с разным "уровнем уверенности" y(i) in R.

Возьмем x с вероятностями 1/2, 1/4, 1/4, а y на тех же значениях -1, 1, -23.
Корелляция положительна (потому что м.о. произведения -3/4, а произведение м.о. -6/4 но предсказательная сила y нулевая

soldatiki

Лузер получит не -0.5, у него ранг 1. Получит какую-то странную 1/N-1/2. Это странно.
И медианный получит не 0, если медиана из выборки, то она (N+1)/2
А, ну сорри, ступил, тут подразумевается нумерация с нуля, как в программировании. Нужно (k -1) / (N - 1) - 0.5. Видимо, как раз то, что ты советовал.

soldatiki

Возьмем x с вероятностями 1/2, 1/4, 1/4, а y на тех же значениях -1, 1, -23.
Корелляция положительна (потому что м.о. произведения -3/4, а произведение м.о. -6/4 но предсказательная сила y нулевая
Ну хорошо, а если предположить, что как X, так и Y имеют нулевое матожидание (что логично, ибо тогда можно без оракула играть, просто ставить на матожидание)?

griz_a

Возьмем Y = X, если X = 1, -1, а если X =0, то у Y какие-нибудь трешовые значения раскидаем в большом числе.
Корреляция положительная, поскольку Y =0 и X =0 вообще никакого эффекта на ковариацию не оказывают в случае нулевых средних, но в списке значений Y непонятно что, среди которых не особенно выделяются 1 и -1, которые для нас важны

soldatiki

Возьмем Y = X, если X = 1, -1, а если X =0, то у Y какие-нибудь трешовые значения раскидаем в большом числе.
Ну хорошо, предположим, что X всегда либо растет, либо падает, то есть +-1.
И еще вариант: если X и Y оба принимают значения в отрезке [-1, 1], среднее у обоих 0. Распределения задаются плотностью, то есть, атомов нет.
Еще вариант: X и Y принимают значения в R, но есть еще какие-то свойства, "запрещающие трэш", например, симметричность, наличие моментов, оценка на хвосты и тд.
Это я не меняю по ходу дела задачу ради прикола, а доформализовываю ее, держа в голове "жизненный" аналог. Просто в экспериментах с историческими бирживыми данными такой подход дает результат. Хочется понять, если ли у этого основания, или просто "так получается" и на системность этого эффекта полагаться не стоит.

griz_a

Значит в практической реализации есть нечто большее, чем просто корреляция.

soldatiki

Ну хорошо, как описать соотношение между X и Y, при котором условие Y(omega1) > Y(omega2) "в среднем" влечет X(omega1) > X(omega2 то есть, при двух значениях оракула с большей уверенностью стоит доверять большему значению, если ожидаем рост, и меньшему, если ожидаем падение? Что-нибудь в терминах условной вероятности X при условии Y?
То есть, интуитивно хочется выразить тот факт, что иногда мы не знаем, какой установить "порог чувствительности" для оракула, тогда лучше принимать решение не на основании сравнения значение оракула с фиксированным числом, а сравнивать значения оракула для разных игровых автоматов и "хэджироваться", играя положительные ставки на одних и отрицательные на других. То есть, если величина Y плохо предсказывает X, то ранг от Y уже неплохо предсказывает величину разности между несколькими экземплярами X.
Такой эффект изучался?

griz_a

E(Y|X)>0? :)

soldatiki

Вот блин, так и не удалось понять в свое время, что такое условное матожидание при условии случайной величины. Знаю, что это то же, что при условии сигма-алгебры этой величины, но именно понять не могу: это как? Думал, что это если у нас есть более "богатая" с.в., то ее можно усреднить по значениям более "бедной" с.в. Но тут как бы обе величины борелевские, сигма-алгебры совпадают, более того, в реальной задаче Y - это функция простого вида от нескольких "предыдущих значений" X, то есть, какая-то статистика (интуитивно обе величины содержат "одинаковое количество информации"). К тому же, в выражении E(Y|X) > 0 не учитывается, что X и Y могут быть и отрицательными. Может, я неправильно понимаю...

griz_a

Да, плохая формула, лучше вот так E(YX|X)>0.
Т.е. при каждом фиксированном значении X, матожидание Y будет положительным.
Но это сильное условие, конечно

soldatiki

А можно поменять ролями на более интуитивное E(XY|Y) > 0?
И еще вопрос: как в такой терминологии отразить факт, что бОльшему прогнозу Y соответствует бОльшее матожидание X? Насколько большее - неясно, есть лишь "монотонность".
PS: И это на практике так: мы не знаем, насколько "достоверно" Y = 100, но знаем, что это лучше, чем Y = 50 при прочих равных, поэтому ставим +1 на первый игровой автомат и -1 на второй в расчете играть не на "абсолютных" значениях прогноза, а на "разности" прогнозов.

griz_a

Ну ок, а, скажем, E(X|Y) монотонна по Y?

soldatiki

О, кажется, это то, что надо: E(X|Y) монотонна по Y.
Можно ли тогда утверждать, что ранговая стратегия игры будет давать лучшие результаты, чем просто ставка sign(Y) или пропорционально Y?
Будет ли ранговая стратегия лучше, чем просто "усреднение по нескольким игровым автоматам", когда мы делаем ставку sign(Y) / N на каждый?

griz_a

Тогда по определению [math]$E(X|Y_{(r)}) > E(X|Y_{(s)})$[/math] при r>s :)

soldatiki

Ну это ясно, а в терминах матожидане VS дисперсия? Пусть V = E(XY|Y) - результаты исходной игры, и пусть R = E(X|Yr) - E(X|Ys) - результаты ранговой игры. Тогда что можно сказать про среднее E(R) и дисперсию D(R если знаем E(V) и D(V)? В частности, верно ли, что коэффициент Шарпа S(R) = E(R) / sqrt(D(R будет больше, чем у исходной игры S(V) = E(V) / sqrt(D(V?

griz_a

Сейчас мягкое и теплое предлагается сравнивать. Сомневаюсь, что здесь какие-то есть соотношения

soldatiki

Сейчас мягкое и теплое предлагается сравнивать. Сомневаюсь, что здесь какие-то есть соотношения
Ну почему же, вот точная постановка задачи.
Пусть есть два автомата X1, X2. Будем вычилять прогнозы Y1, Y2 для каждого автомата.
Первая стратегия. Будем делать ставки на каждый автомат в соответствии со знаком прогноза, тогда выигрыш V = X1 * sign(Y1) + X2 * sign(Y2).
Вторая стратегия. Будем делать ставки в соответствии с рангами, тогда выигрыш W = (X1 - X2) * R, где R = 1 при Y1 > Y2 и R = -1 иначе.
Пусть известны матожидание и дисперсия первой игры: E(V D(V). Пусть также E(X) = E(Y) = 0, D(X) = d1, D(Y) = d2. Пусть E(XY |Y) неубывает по Y.
Что можно сказать про матожидание и дисперсию второй игры: E(W D(W)?

griz_a

Какая-то странная вторая стратегия, которая при двух больших положительных Y предлагает ставить против одного из них

soldatiki

Ничего странного! Качество стратегии же не в матожидании, а в его отношении к стандартному отклонению. Потому что при хорошем соотношении можно увеличить ставку засчет заемного капитала и получить такое же высокое матожидание, но уже с меньшим риском.

griz_a

К.О. подсказывает, что в идеальном случае Y=X вторая стратегия хуже первой

soldatiki

Напомни, плиз, что такое К. О.
Оставить комментарий
Имя или ник:
Комментарий: