Можно ли выделить 1 тип данных из наложения 2-х разных типов?

sunny82

Возникла такая задача биоинформатическая. Данные после секвенирования дают разное покрытие (кратность прочтения нуклеотида в конкретной координате) для разных участков генома. Известно, что распределение покрытия на геномной последовательности в данном случае представляет собой наложение 2 х типов регулярностей:
Первая - у неё известны положения на геномной последовательности пиков и спадов покрытия, но как отличается покрытие на пике и на спаде - не известно. Расстояние между пиками и спадами разное, порядка 150-220 нуклеотидов, но точно известно, где каждый пик и спад находится на геномной последовательности. Потенциально возможно получить экспериментальные данные только с данным типом регулярности.
Вторая - у неё известен период, он более регулярный, чем у первой поcледовательности - ~ 200 нуклеотидов. Но разница между пиками и спадами опять-таки не известна, и получить данную регулярность в чистом виде без типа 2 не удастся (не вообще нельзя, а нам не удастся, и получить подобные данные неоткуда).
Используя данные, которые представляют собой наложение 2-х этих регулярностей, нужно обнаружить на геномной последовательности участки с регулярной структурой типа 2.
Прошу подсказать, как это можно попробовать сделать.

Niklz

я не совсем понимаю формулировку задачи, поэтому попробую предложить одну идею для формулировки как я ее понял.
у тебя есть 1 координата (позиция в геномной последовательности обозначим ее x и для каждого значения этой координаты у тебя есть какое-то наблюдённое значение величины "покрытие", обозначим ее c(x).
ты знаешь,
1. что в заданных точках x1, x2, ... , xn у тебя должны быть пики (пока ограничимся для простоты только пиками, я не очень понимаю что значит спады) различной неизвестной высоты c1, c2, ... cn порожденные каким-то одним процессом и
2. что с заданной регулярностью, примерно каждые xreg=200 шагов на них могут накладыватся пики одинаковой высоты creg порожденные каким-то вторым процессом;
3. при наложении пиков от двух процессов в одной точке x, наблюденное значение покрытия c(x) в этой точке - это сумма значений "покрытия" от двух процессов.
у тебя есть наблюденные данные N значений покрытия c(x) для x=1,...,N и ты хочешь выяснить, какие высоты пиков creg, c1, ... , cn лучше всего подходят к этим данным.
похоже?
если так, то можно попробовать подобрать такие creg, c1, ... , cn чтобы невязка с данными была минимальна.
для этого можно использовать регрессию.
то есть завести индикаторные переменные
- I1,..., In которые равны 1 в точках x1,...,xn и 0 в остальных точках и
- Ireg которая равна 1 в точках регулярных пиков и 0 в остальных точках.
и зафиттить регрессию:
c(x) = c1*I1 + ... cn*In + creg*Ireg + epsilon
далее можно учитывать более тонкие эффекты,
- что пики это отклонения от среднего уровня вверх, а спады это отклонения от среднего уровня вниз; то есть добавить константу c0 в регрессию выше и добавить члены соответствующие спадам - уже со знаком "-".
- что пик имеет ширину и форму а не просто столбик, то есть переменные Ireg, I1, ... , In должны быть не просто индикаторными 0/1-переменными с 1-цей на пиках, а быть типа треугольничка вокруг пика;
- что период второго процесса не точно xreg а может чуть-чуть плавать, можно подумать как учесть.

sunny82

Спасибо за помощь в первичной формализации. :) Буду думать, так как пока в такой формализации есть нестыковки с тем. что нужно, но теперь понимаю, что это нестыковки из-за моей первоначальной формулировки. В любом случае, спасибо большое - теперь есть, за что зацепиться, похоже.

Niklz

давай. напиши там какая получится формализация ради интереса.

Uthgart

Трудно понять некоторые моменты. Эти зависимости у тебя - функции одной переменной или нет? Пики и спады - это максимумы и минимумы?

sunny82

Задача пока полностью переформатировалась в поиск участков, в которых хотя бы теоретически поместятся несколько периодов 2-го типа. Так как даже этого может не оказаться, судя по данным. Затем в качестве первого приближения внутри этих участков будет проверена непротиворечивость локальных максимумов периодичности 2-го типа. Участки, расположение локальных максимумов в которых не противоречит возможности отнесения их к периодичности 2-го типа, будут дальше проверяться другими методами.
Оставить комментарий
Имя или ник:
Комментарий: