Расчет скрытой марковской модели

woodyM

Как считать вероятность переходов (transition probablities) в скрытой марковсокй модели?
на таком примере:

Спасибо!

demiurg

В смысле "как считать"? Они же у тебя нарисованы.

woodyM

да, они уже нарисованы, кто-то их посчитал, мне интересно как это сделано =0)

demiurg

Это ты минус поставил?
Ну мало ли как, пости статью.

demiurg

Ты вообще понимаешь чо такое HMM? У тебя есть некий случайный процесс, возможно многомерный, а ты говоришь: а давайте предположим, что это марковская цепь с неизвестными нам состояними. Потом анализируешь его реализацию (иногда даже всего одну) и выделяешь эти состояния, а потом смотришь как часто между ними переход. Произвола дофига, начиная с выбора состояний.
Обычно это говно :)

griz_a

Правильно ли я понимаю эту схему? Есть марковская цепь с 7 состояниями. При каждом из состояний с указанными вероятностями случаются события A,C, G, T которые мы можем наблюдать?
И ниже 5 последовательностей наблюдений за A, C, G, T с пропусками.
Надо оценить вероятности переходов?

woodyM



Ты вообще понимаешь чо такое HMM? У тебя есть некий случайный процесс, возможно многомерный, а ты говоришь: а давайте предположим, что это марковская цепь с неизвестными нам состояними. Потом анализируешь его реализацию (иногда даже всего одну) и выделяешь эти состояния, а потом смотришь как часто между ними переход. Произвола дофига, начиная с выбора состояний.
Обычно это говно
на уровне кукареку понимаю.
пример у меня вроде вполне конкретный, по крайней мере наверху изображена hmm, а внизу на основе чего эта модель сделана. если Emission prob. понятно как высчитываются, то transition не доконца.

woodyM



Правильно ли я понимаю эту схему? Есть марковская цепь с 7 состояниями. При каждом из состояний с указанными вероятностями случаются события A,C, G, T которые мы можем наблюдать?
И ниже 5 последовательностей наблюдений за A, C, G, T с пропусками.
Надо оценить вероятности переходов?
все правильно, только ниже 5 последовательностей, на основе которых сделана эта модель.
меня интересует как в этой модели появились вероятности переходов, особенно в loop

griz_a

Я может не в теме, но если у нас есть два одинаковых с точки зрения выхода состояния 2 и 7, то казалось то, как сообщаются состояния, получается из каких-то внешних причин?

griz_a

А из крайнего правого состояния мы куда вообще попадаем? Навсегда там остаемся?
Удивительно, тогда мы в 75% случаев при таких вероятностях мы с 7ого состояния должны поглощаться C и G, а на деле 0 раз :(

demiurg

Притом, оно такое же, как второе. Надо всё-таки выяснить, модель чего это, без этого нет смысла думать.

mab1

для решения hmm в биоинформатике обычно применяются разные EM-алгоритмы. В частности, Баума-Вельха. Также видел работы парня по имени Andrade-Cetto с его собственным алгоритмом, и меня уверяли, что это относительно круто и заслуживает внимания.

woodyM

ага, хорошо, попробую объяснить биоинформатическую задачу.
в природе определено 5 последовательностей ДНК (приведены на картинке внизу) в разных видах, кодирующих часть белка, они сгруппированы в некоторую группу.
Нужно создать скрытую модель Маркова по этим 5 последовательностям, чтобы вычислять по ней другие последовательности ДНК и оценивать вероятность принадлежности к этой группе.
(конечно тут задача очень сильно упрощена и не имеет отношения к реальности, это просто пример использования hmM в биоинформатике)
все это было проговорено вскольз, поэтому я стал самостоятельно искать по этой теме объяснения, вкратце понял что такое hmm, как оно может использоваться в биоинформатике, но вот на данном конкретном примере у меня возник вопрос, как они высчитывали вероятность перехода. Дожно быть что-то очень простое но никак не могу скомбинировать.
для наглядности приведу пару слайдов из найденной лекции:




в общем мне ясно что хотел сказать автор, в общем нам на лекции говорили тоже самое.
но конкретно о том как создаются модели Маркова, никто не говорил, решил спросить гугл википедию и мгушников =0)
ну в общем теперь понятно, чем выходные теперь будут заняты =0)

demiurg

Ok, "состояние" — это генотип одного вида.
А что такое "переход"?

mab1

Не буду утверждать, что там описано хорошо (напротив, мне кажется, плохо но нужные тебе темы есть в книгах Lesk и Mount

demiurg

А не, не так.

demiurg

Вдоль по последовательности — это у нас типа "время" или номер шага.
"Состояния" — это нуклеотиды.
"Переход" — это, соответственно, какой будет следующий нуклеотид, если вот здесь такой.
Ищутся они так, что берутся все известные гомологические последовательности и эта условная вероятность считается как частота.

woodyM



Вдоль по последовательности — это у нас типа "время" или номер шага.
"Состояния" — это нуклеотиды.
"Переход" — это, соответственно, какой будет следующий нуклеотид, если вот здесь такой.
да, вдоль оси Х - номер в поселдовательности
состояние - это соответсвенно нукледотид
переход, да, верно.


Ищутся они так, что берутся все известные гомологические последовательности и эта условная вероятность считается как частота.
ну да, только это в данном случае не гомологичность.
просто какие нуклеотиды на этом месте
применять твот конкретно на этом примере гомологичность или вообще всякие биологические вероятности не нужно, как раз тут это упростили.

woodyM

спасибо тебе большое, попобую на выходных осилить =0)
или в понедельник спрошу наших спецов.

demiurg

ну да, только это в данном случае не гомологичность.
просто какие нуклеотиды на этом месте
применять твот конкретно на этом примере гомологичность или вообще всякие биологические вероятности не нужно, как раз тут это упростили.
Ну пофиг, просто на основании некоей базы данных вероятность. Понятно что эти последовательности должны быть как-то связаны, кодировать один и тот же белок или похожие, например

woodyM

точно!

demiurg

Кстати, мне кажется, что картинка из лекции косячная. Пусть кайафа прокомментирует, он вроде больше знает.

woodyM

вот еще вариант, мне кажется он проще будет, как тут посчитать эти вероятности и правильно ли я посчитал все остальные?

demiurg

У них это понятие вероятностей перехода очень странное, относится только к insertion, похоже.
Поскольку в твоём наборе всегда только одна вставка, то с вероятностью 1 идёт обратно, а на себя же с вероятностью 0.
Как я понял.

griz_a

А, ура, я понял суть схемы :)

griz_a

5 правильно поставлены, возвратная стрелка с 0, ну и соответственно из "дополнительного состояния" в основное 1

griz_a

Ну и соответственно в первой задаче они так строят:
Пронумеруем нижние состояния от 1 до 6 и верхнее (отдельное) назовем пи, потому что оно не 3, не 4.
Тогда в 2 случаях из 5 состояние пи (прочерки) мы просто проскакиваем. Отсюда 0,4 над стрелкой 3-4.
Дальше у нас в 1 случае из 3 получается серия пи-пи, в 3 случаях пи-4. Поскольку погрешность все равно чудовищна, будем продолжать искать вероятности в виде k/5.
Тогда наилучшее приближение будет при 2/5 остаться и 3/5 уйти

woodyM

спасибо, мужики! =0)
МГУшники победили гугл и википедию в этой схватке!
ГЗМ!
=0)

mab1

я знаю, как применяется hmm в прочтении смазанных сигналов при секвенировании. Здесь, по-моему, рассматривается выравнивание :(
Оставить комментарий
Имя или ник:
Комментарий: