В какой программе сравнить последовательности нескольки белков

liool

что-нибудь попроще и желательно чтобы дистрибутив в сетке был

PrinceSSka

clustalX

liool

Она под линукс?

uzon

Есть и под win. Тебе для выравнивания сиквенсвов? Лучше поясни - что значит "сравнить" и для какой задачи? Есть масса подобного софта.

liool

У меня есть несколько белков со схожим строением (есть одинаковые мотивы). Мне нужно посмотреть какие аминокислоты остаются неизменными в их активных центрах и на основании этого делать какие-то выводы о механизмах реакций в этих белках.

uzon

ну да, нужно выравнивание. можешь попользоваться этим:
http://www.ebi.ac.uk/Tools/sequence.html
для анализа выравненных последовательностей используй GeneDoc или BioEdit (лучше);
для создания карты локального сходства можешь использовать DotHelix
http://www.genebee.msu.su/services/dhm/advanced.html

liool

Parameters
Name Value
Motif's power threshold - DotHelix 0
Motif's power threshold - noise upper bound 4
Motif's length threshold 7
Maximum number of motifs to plot 1000
Maximum number of motifs to output 50
Threshold of motif's homology percentage_ 0.01
Accurate Dothelix ON
Motif frequences recalc ON
Normalize weight matrix ON
Weight matrices DAYHOFF
Sequences
>1wq1
MTEYKLVVVGAGGVGKSALTIQLIQNAFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIAQYREQIKRVKDSDDVPMVLVGNKCDL
AARTVESRQAQDLARSYGIPYIETSAKTRQGVEDAFYTLVREIRQ
>1grn
MQTIKCVVVGDGAVGKTCLLISYTTNKFPSEYVPTVFDNYAVTVMIGGEPYTLGLFDTAGQ
EDYDRLRPLSYPQTDVFLVCFSVVSPSSFENVKEKWVPEITAACPKTPFLLVGTQIDLRDD
PSTIEKLAKNKQKPITPETAEKLARDLKAVKYVECSALTQKGLKNVFDEAILAALEPPEPK
KSRRCVLL

Weight Matrix of DAYHOFF
DAYHOFF AMINO ACIDS DISTANCE MATRIX
     A C D E F G H I K L M N P Q R S T V W Y
A 12
C 8 22
D 10 5 14
E 10 5 13 14
F 6 6 4 5 19
G 11 7 11 10 5 15
H 9 7 11 11 8 8 16
I 9 8 8 8 11 7 8 15
K 9 5 10 10 5 8 10 8 15
L 8 4 6 7 12 6 8 12 7 16
M 9 5 7 8 10 7 8 12 10 14 16
N 10 6 12 11 6 10 12 8 11 7 8 12
P 11 7 9 9 5 9 10 8 9 7 8 9 16
Q 10 5 12 12 5 9 13 8 11 8 9 11 10 14
R 8 6 9 9 6 7 12 8 13 7 10 10 10 11 16
S 11 10 10 10 7 11 9 9 10 7 8 11 11 9 10 12
T 11 8 10 10 7 10 9 10 10 8 9 10 10 9 9 11 13
V 10 8 8 8 9 9 8 14 8 12 12 8 9 8 8 9 10 14
W 4 2 3 3 10 3 7 5 7 8 6 6 4 5 12 8 5 4 27
Y 7 10 6 6 17 5 10 9 6 9 8 8 5 6 6 7 7 8 10 20
 
--------------------------------------------------------------------------------
DAYHOFF: Graphic of the Pairwise Motifs' Collection of DotHelix

DAYHOFF: List of Motifs
  
Motif 1-1, Power 9.0 Homology percent 42.5 Length 87
     VVVG.G+VGK+ L I . N F .EY PT* D+Y V+I+GE.. L+++DTAGQE*Y.
>1wq1 ( 7) VVVGAGGVGKSALTIQLIQNAFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAGQEEYSA
>1grn ( 7) VVVGDGAVGKTCLLISYTTNKFPSEYVPTVFDNYAVTVMIGGEPYTLGLFDTAGQEDYDR
     *R . .* FL F+* +..SFE+*
>1wq1 ( 67) MRDQYMRTGEGFLCVFAINNTKSFEDI
>1grn ( 67) LRPLSYPQTDVFLVCFSVVSPSSFENV
  
Motif 1-2, Power 4.7 Homology percent 36.8 Length 19
     +* Y*E SA T++G+.+.F
>1wq1 ( 138) GIPYIETSAKTRQGVEDAF
>1grn ( 151) AVKYVECSALTQKGLKNVF
  
Motif 1-3, Power 4.0 Homology percent 4.3 Length 23
     +L +...+...*..+**+.+..
>1wq1 ( 52) LLDILDTAGQEEYSAMRDQYMRT
>1grn ( 78) FLVCFSVVSPSSFENVKEKWVPE
  
Motif 1-4, Power 4.0 Homology percent 27.3 Length 33
     *G .+ T+ L++.A **YD. SY.+ V+
>1wq1 ( 14) VGKSALTIQLIQNAFVDEYDPTIEDSYRKQVVI
>1grn ( 46) IGGEPYTLGLFDTAGQEDYDRLRPLSYPQTDVF

liool

Вот что получилось
А что это значит?
(на ссылке находится оригинальная страничка - в ней таблицы без смещений)

liool

Хотя я поняла кажется как ищутся мотивы. Здесь 4 различных вариантов мотивов, которые нашла программа с их вероятностными оценками.
А что значат "плюсики", "точки" и "звездочки" над мотивами?
И что значит рисунок?

PrinceSSka

слушай лучше не по два а сразу все белки выровнить и увидешь где че сохраняется. Вот для этого Clustal`ы самое оно.

PrinceSSka

фор экзапл:
есть 4 белка:
>EMR4
MGSRFLLVLLSGASCPPCPKYASCHNSTHCTCEDGFRARSGRTYFHDSSEKCEDINECETGLAKCKYKAYCRNKVGGYIC
SCLVKYTLFNFLAGIIDYDHPDCYENNSQGTTQSNVDIWVSGVKPGFGKQLPGDKRTKHICVYWEGSEGGWSTEGCSHVH
SNGSYTKCKCFHLSSFAVLVALAPKEDPVLTVITQVGLTISLLCLFLAILTFLLCRPIQNTSTSLHLELSLCLFLAHLLF
LTGINRTEPEVLCSIIAGLLHFLYLACFTWMLLEGLHLFLTVRNLKVANYTSTGRFKKRFMYPVGYGIPAVIIAVSAIVG
PQNYGTFTCWLKLDKGFIWSFMGPVAVIILINLVFYFQVLWILRSKLSSLNKEVSTIQDTRVMTFKAISQLFILGCSWGL
GFFMVEEVGKTIGSIIAYSFTIINTLQGVLLFVVHCLLNRQVRLIILSVISLVPKSN
>ETL
LVVFSTLLNCSYTQNCTKTPCLPNAKCEIRNGIEACYCNMGFSGNGVTICEMCVPGFRSSSNQDRFITNDGTVCIENVNA
NCHLDNVCIAANINKTLTKIRSIKEPVALLQEVYRNSVTDLSPTDIITYIEILAESSSLLGYKNNTISAKDTLSNSTLTE
FVKTVNNFVQRDTFVVWDKLSVNHRRTHLTKLMHTVEQATLRISQSFQKTTEFDTNSTDIALKVFFFDSYNMKHIHPHMN
MDGDYINIFPKRKAAYDSNGNVAVAFVYYKSIGPLLSSSDNFLLKPQNYDNSEEEERVISSVISVSMSSNPPTLYELEKI
TFTLSHRKVTDRYRSLCAFWNYSPDTMNGSWSSEGCELTYSNETHTSCRCNHLTHFAILMSSGPSIGIKDYNILTRITQL
GIIISLICLAICIFTFWFFSEIQSTRTTIHKNLCCSLFLAELVFLVGINTNTNKLFCSIIAGLLHYFFLAAFAWMCIEGI
HLYLIVVGVIYNKGFLHKNFYIFGYLSPAVVVGFSAALGYRYYGTTKVCWLSTENNFIWSFIGPACLIILVNLLAFGVII
YKVFRHTAGLKPEVSCFENIRSCARGALALLFLLGTTWIFGVLHVVHASVVTAYLFTVSNAFQGMFIFLFLCVLSRKIQE
EYYRLFKNVPCCFGCLR
>EMR1
MRGFNLLLFWGCCVMHSWEGHIRPTRKPNTKGNNCRDSTLCPAYATCTNTVDSYYCTCKQGFLSSNGQNHFKDPGVRCKD
IDECSQSPQPCGPNSSCKNLSGRYKCSCLDGFSSPTGNDWVPGKPGNFSCTDINECLTSRVCPEHSDCVNSMGSYSCSCQ
VGFISRNSTCEDVNECADPRACPEHATCNNTVGNYSCFCNPGFESSSGHLSCQGLKASCEDIDECTEMCPINSTCTNTPG
SYFCTCHPGFAPSSGQLNFTDQGVECRDIDECRQDPSTCGPNSICTNALGSYSCGCIVGFHPNPEGSQKDGNFSCQRVLF
KCKEDVIPDNKQIQQCQEGTAVKPAYVSFCAQINNIFSVLDKVCENKTTVVSLKNTTESFVPVLKQISMWTKFTKEETSS
LATVFLESVESMTLASFWKPSANVTPAVRAEYLDIESKVINKECSEENVTLDLVAKGDKMKIGCSTIEESESTETTGVAF
VSFVGMESVLNERFFQDHQAPLTTSEIKLKMNSRVVGGIMTGEKKDGFSDPIIYTLENVQPKQKFERPICVSWSTDVKGG
RWTSFGCVILEASETYTICSCNQMANLAVIMASGELTMDFSLYIISHVGIIISLVCLVLAIATFLLCRSIRNHNTYLHLH
LCVCLLLAKTLFLAGIHKTDNKTGCAIIAGFLHYLFLACFFWMLVEAVILFLMVRNLKVVNYFSSRNIKMLHICAFGYGL
PMLVVVISASVQPQGYGMHNRCWLNTETGFIWSFLGPVCTVIVINSLLLTWTLWILRQRLSSVNAEVSTLKDTRLLTFKA
FAQLFILGCSWVLGIFQIGPVAGVMAYLFTIINSLQGAFIFLIHCLLNGQVREEYKRWITGKTKPSSQSQTSRILLSSMP
SASKTG
>EMR3
MQGPLLLPGLCFLLSLFGAVTQKTKTSCAKCPPNASCVNNTHCTCNHGYTSGSGQKLFTFPLETCNDINECTPPYSVYCG
FNAVCYNVEGSFYCQCVPGYRLHSGNEQFSNSNENTCQDTTSSKTTEGRKELQKIVDKFESLLTNQTLWRTEGRQEISST
ATTILRDVESKVLETALKDPEQKVLKIQNDSVAIETQAITDNCSEERKTFNLNVQMNSMDIRCSDIIQGDTQGPSAIAFI
SYSSLGNIINATFFEEMDKKDQVYLNSQVVSAAIGPKRNVSLSKSVTLTFQHVKMTPSTKKVFCVYWKSTGQGSQWSRDG
CFLIHVNKSHTMCNCSHLSSFAVLMALTSQEEDPVLTVITYVGLSVSLLCLLLAALTFLLCKAIQNTSTSLHLQLSLCLF
LAHLLFLVGIDRTEPKVLCSIIAGALHYLYLAAFTWMLLEGVHLFLTARNLTVVNYSSINRLMKWIMFPVGYGVPAVTVA
ISAASWPHLYGTADRCWLHLDQGFMWSFLGPVCAIFSANLVLFILVFWILKRKLSSLNSEVSTIQNTRMLAFKATAQLFI
LGCTWCLGLLQVGPAAQVMAYLFTIINSLQGFFIFLVYCLLSQQVQKQYQKWFREIVKSKSESETYTLSSKMGPDSKPSE
GDVFPGQVKRKY
КУЯКС в ClustalW!
результат:
CLUSTAL W (1.8) multiple sequence alignment
EMR4 ------------MGSRFLLVLL-----------SGASCPP---CPKYASCHN---STHCT
EMR3 ---MQGP--LLLPGLCFLLSLFGAV-----TQKTKTSCAK---CPPNASCVN---NTHCT
EMR1 ---MRGFNLLLFWGCCVMHSWEGHIRPTRKPNTKGNNCRDSTLCPAYATCTNTVDSYYCT
ETL LVVFSTLLNCSYTQNCTKTPCLPNAKCEIRNGIEACYCNMGFSGNGVTICEMCVPGFRSS
* : * . .:
EMR4 CEDG-FRARSGRTYFHDSSEKCEDINECETG-----------------------------
EMR3 CNHG-YTSGSGQKLFTFPLETCNDINECTPPY----------------------------
EMR1 CKQG-FLSSNGQNHFKDPGVRCKDIDECSQSPQPCGPNSSCKNLSGRYKCSCLDGFSSPT
ETL SNQDRFITNDGTVCIENVNANCHLDNVCIAAN----------------------------
.:.. : : .* : *. : *
EMR4 ------------------------------------------------------------
EMR3 ------------------------------------------------------------
EMR1 GNDWVPGKPGNFSCTDINECLTSRVCPEHSDCVNSMGSYSCSCQVGFISRNSTCEDVNEC
ETL ------------------------------------------------------------

EMR4 -------------------------------------------------LAKCKYKAYCR
EMR3 -------------------------------------------------SVYCGFNAVCY
EMR1 ADPRACPEHATCNNTVGNYSCFCNPGFESSSGHLSCQGLKASCEDIDECTEMCPINSTCT
ETL -------------------------------------------------INKTLTKIRSI
: .
EMR4 NKVGGYICSCLVKYTLFNFLAGIIDY-----DHPDCYENNSQG-----------------
EMR3 NVEGSFYCQCVPGYRLHSGNEQFSNS-----NENTCQDTTSSK-----------------
EMR1 NTPGSYFCTCHPGFAPSSGQLNFTDQGVECRDIDECRQDPSTCGPNSICTNALGSYSCGC
ETL KEPVALLQEVYRNSVTDLSPTDIITYIEILAESSSLLGYKNNT-----------------
: . : : .
EMR4 ------TTQS--------------------------------------------------
EMR3 ------TTEGRKE-----------------------------------------------
EMR1 IVGFHPNPEGSQKDGNFSCQRVLFKCKEDVIPDNKQIQQCQEGTAVKPAYVSFCAQINNI
ETL -----ISAKDTLSN----------------------------------------------
..:.
EMR4 ------------------------------------------------------------
EMR3 ----------------LQKIVDKFESLLTNQTLWRTEGRQEISSTATTILRDVESKVLET
EMR1 FSVLDKVCENKTTVVSLKNTTESFVPVLKQISMWTKFTKEETSSLATVFLESVESMTLAS
ETL -----------STLTEFVKTVNNFVQR-DTFVVWDKLSVNHRRTHLTKLMHTVEQATLRI

EMR4 ------------------------------------------NVDIWVSGVKPG------
EMR3 ALKDPEQKVLKIQNDSVAIETQAITDNCSEERKTFNLNVQMNSMDIRCSDIIQGDTQGPS
EMR1 FWKPSANVTPAVRAEYLDIESKVINKECSEENVTLDLVAKGDKMKIGCSTIEESESTETT
ETL SQSFQKTTEFDTNSTDIALKVFFFDS-YNMKHIHPHMNMDGDYINIFPKRKAAYDSNGNV
:.* .
EMR4 -------------------FGKQLP----------------------GDKR---------
EMR3 AIAFISYSSLGNIINAT--FFEEMDK-----KDQVYLNSQVVS-AAIGPKRNVSLSKSVT
EMR1 GVAFVSFVGMESVLNER--FFQDHQAPLTTSEIKLKMNSRVVGGIMTGEKKD-GFSDPII
ETL AVAFVYYKSIGPLLSSSDNFLLKPQN-YDNSEEEERVISSVISVSMSSNPPTLYELEKIT
* . .
EMR4 ------------TKHICVYWEGSEGG----WSTEGCSHVHSNGSYTKCKCFHLSSFAVLV
EMR3 LTFQHVKMTPSTKKVFCVYWKSTGQGSQ--WSRDGCFLIHVNKSHTMCNCSHLSSFAVLM
EMR1 YTLENVQPKQKFERPICVSWSTDVKGGR--WTSFGCVILEASETYTICSCNQMANLAVIM
ETL FTLSHRKVTDR-YRSLCAFWNYSPDTMNGSWSSEGCELTYSNETHTSCRCNHLTHFAILM
: :*. *. *: ** . ::* * * ::: :*:::
EMR4 ALAP---KE-DPVLTVITQVGLTISLLCLFLAILTFLLCRPIQNTSTSLHLELSLCLFLA
EMR3 ALTS---QEEDPVLTVITYVGLSVSLLCLLLAALTFLLCKAIQNTSTSLHLQLSLCLFLA
EMR1 ASGE---LTMDFSLYIISHVGIIISLVCLVLAIATFLLCRSIRNHNTYLHLHLCVCLLLA
ETL SSGPSIGIKDYNILTRITQLGIIISLICLAICIFTFWFFSEIQSTRTTIHKNLCCSLFLA
: * *: :*: :**:** :. ** : *:. * :* .*. .*:**
EMR4 HLLFLTGINRTEPEVLCSIIAGLLHFLYLACFTWMLLEGLHLFLTVRNLKVANYTSTGRF
EMR3 HLLFLVGIDRTEPKVLCSIIAGALHYLYLAAFTWMLLEGVHLFLTARNLTVVNYSSINRL
EMR1 KTLFLAGIHKTDNKTGCAIIAGFLHYLFLACFFWMLVEAVILFLMVRNLKVVNYFSSRNI
ETL ELVFLVGINTNTNKLFCSIIAGLLHYFFLAAFAWMCIEGIHLYLIVVGVIYN-----KGF
. :**.**. . : *:**** **:::**.* ** :*.: *:* . .: :
EMR4 KKRFMYPVGYGIPAVIIAVSAIVGPQNYGTFT-CWLKLDKGFIWSFMGPVAVIILINLVF
EMR3 MKWIMFPVGYGVPAVTVAISAASWPHLYGTADRCWLHLDQGFMWSFLGPVCAIFSANLVL
EMR1 KMLHICAFGYGLPMLVVVISASVQPQGYGMHNRCWLNTETGFIWSFLGPVCTVIVINSLL
ETL LHKNFYIFGYLSPAVVVGFSAALGYRYYGTTKVCWLSTENNFIWSFIGPACLIILVNLLA
: .** * : : .** : ** *** : .*:***:**.. :: * :
EMR4 YFQVLWILRSKLSSLNKEVSTIQDTRVMTFKAISQLFILGCSWGLGFFMVEEVGKTIGSI
EMR3 FILVFWILKRKLSSLNSEVSTIQNTRMLAFKATAQLFILGCTWCLGLLQVGPA----AQV
EMR1 LTWTLWILRQRLSSVNAEVSTLKDTRLLTFKAFAQLFILGCSWVLGIFQIGPV----AGV
ETL FGVIIYKVFRHTAGLKPEVSCFENIRSCARGALALLFLLGTTWIFGVLHVVHA----SVV
:: : : :.:: *** ::: * : * : **:** :* :*.: : . . :
EMR4 IAYSFTIINTLQGVLLFVVHCLLNRQVRLIILSVISLVPKSN------------------
EMR3 MAYLFTIINSLQGFFIFLVYCLLSQQVQKQYQKWFREIVKSKSESET-YTLSSKMGPDSK
EMR1 MAYLFTIINSLQGAFIFLIHCLLNGQVREEYKRWITGKTKPSSQSQTSRILLSSMPSASK
ETL TAYLFTVSNAFQGMFIFLFLCVLSRKIQEEYYRLFKNVPCCFGCLR--------------
** **: *::** ::*:. *:*. ::: :
EMR4 ---------------
EMR3 PSEGDVFPGQVKRKY
EMR1 TG-------------
ETL ---------------

ъ
все конечно сметилось
но звездочки это полная консервативность а звездочки замены на схожие аминокислоты

uzon

на рисунке показано расположение найденных схожих мотивов в обоих белках. последовательность одного из них справа по вертикали, второго - внизу по горизонтали. "плюсики", "точки" и "звездочки" вместе с обозначениями ам-т характеризуют мотив (гидрофобность\гидрофильность ам-к, заряд) в каждой позиции. в целом, программа позволяет быстро отыскать наиболее консервативные участки в твоих белках. Консервативность аминокислот в данной позиции (точнее мотив из них) предполагает их необходимость для функции.
Еще было бы интересно посмотреть на 3D структуру твоих белков - как пространственно организованы аминокислоты мотива друг относительно друга. Если очень близко и они находятся в неком кармане, то возможно это и есть активный центр.

uzon

хотя если расположение активных центров для твоих белков уже известно, то воспользуйся какой-нибудь программой для локального выравнивания этих активных центров (ссылку на их список см.выше) и будет тебе счастье.

liool

Спасибо всем большое!
буду мучать свои белки дальше
Оставить комментарий
Имя или ник:
Комментарий: