Upload
bioinformaticsinstitute
View
89
Download
1
Tags:
Embed Size (px)
DESCRIPTION
Citation preview
Введение в биоинформатикуСовременное положение
Задачи и методы их решения
Порозов Юрий porozovsnsit porozovifccnrit
План курса
bull Введение в биоинформатику цели задачи и методы Основные понятия Аминокислоты протеины и нуклеиновые кислоты Способы
представления информации о последовательностях ndash форматы записи Fasta Genbank PDB и способы визуализации Источники
информации базы данных и Интернет для биоинформатики Протеины пространственное строение функции
bull Молекула ДНК ndash хранилище генетической информации Строение ДНК Упаковка молекулы Комплементарность Гены регуляторные
последовательности сайты связывания Кодирование информации при помощи нуклеотидов Репликация (удвоение молекулы) Анализ
последовательностей Парное выравнивание Алгоритмы выравнивания Множественное выравнивание Применение выравнивания в
биоинформатике примеры
bull Строение белков Первичная структура белка Вторичная структура Третичная и четвертичная структура белка Мотивы и домены α-
структуры β-структуры и их комбинации Функции белков Связь между структурой и функцией белков Главная цепь Боковые цепи
Геометрия главной цепи Конформации белка Конформации боковых цепей Диаграмма Рамачандран и библиотеки ротамеров
bull Предсказание трехмерной структуры белка Фолдинг (сворачивание) белка Парадокс Левенталя Методы определения пространственной
структуры белков X-ray-дифракция Метод ЯМР Потенциальная энергия молекулы Предсказание вторичной структуры Предсказание
третичной структуры AB-initio Моделирование гомологов Threading (распознавание фолда) Структурное выравнивание
bull Биологические базы данных и серверы NCBI и сервисы PDB OCA SRS SRS-3D PredictProtein Swiss-Model ExPASy UniProt Серверы
EMBL ENCODE Инструменты Swiss-PDBviewer VMD Accelrys Discovery Studio Актуальные проблемы требующие решения
аннотация генома поиск генов поиск сайтов репликации у человека Сворачивание белков предсказание структуры белка mdash CASP
предсказание функции и клеточной локализации белков Предсказание подвижности белков и классификация протеинов по принципу
подвижности
bull Моделирование подвижности белков Молекулярная динамика и компьютерная графика Maya VMD Моделирование на основе
геометрии
Биоинформатика - наука занимающаяся анализом экспериментальных данных молекулярной биологии секвенированных последовательностей биополимеров экспериментально определенных пространственных структур биологических макромолекул данных об экспрессии генов и тд Методами биоинформатики являются методы организации информации широко понимаемые компьютерные методы методы вычислительной математики и статистики (МС Гельфанд et al)
Европейский Биоинформационный Институт биоинформатика ndash это применение компьютерных технологий для администрирования и анализа биологических данных
Биоинформатика
Structural Genomics
Pharmaco-Genomics
Functional Genomics
Proteomics
Genomics
Bioinformatics
Задачи биоинформатики
bull Функциональная аннотация биополимеров
bull Структурная аннотация биополимеров
bull Эволюция
bull Геномика и протеомика
Биополимеры
ДНК
РНК
(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash
обеспечивающих хранение передачу из поколения в
поколение и реализацию генетической программы развития и
функционирования живых организмов
Протеины (белки)
Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок
Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)
Последовательности белков ndash десятки-тысячи аминокислот
Биополимеры ndash ДНК
Аденин Гуанин
ЦитозинТимин
Аденозинфосфат
Пурины
Пиримидины
Биополимеры - ДНК
J Watson и F Crick Фото из архива Photo Researchers inc
Биополимеры - белки
Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы
Последовательность цепь аминокислот составляет белок
Биополимеры - белки
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
План курса
bull Введение в биоинформатику цели задачи и методы Основные понятия Аминокислоты протеины и нуклеиновые кислоты Способы
представления информации о последовательностях ndash форматы записи Fasta Genbank PDB и способы визуализации Источники
информации базы данных и Интернет для биоинформатики Протеины пространственное строение функции
bull Молекула ДНК ndash хранилище генетической информации Строение ДНК Упаковка молекулы Комплементарность Гены регуляторные
последовательности сайты связывания Кодирование информации при помощи нуклеотидов Репликация (удвоение молекулы) Анализ
последовательностей Парное выравнивание Алгоритмы выравнивания Множественное выравнивание Применение выравнивания в
биоинформатике примеры
bull Строение белков Первичная структура белка Вторичная структура Третичная и четвертичная структура белка Мотивы и домены α-
структуры β-структуры и их комбинации Функции белков Связь между структурой и функцией белков Главная цепь Боковые цепи
Геометрия главной цепи Конформации белка Конформации боковых цепей Диаграмма Рамачандран и библиотеки ротамеров
bull Предсказание трехмерной структуры белка Фолдинг (сворачивание) белка Парадокс Левенталя Методы определения пространственной
структуры белков X-ray-дифракция Метод ЯМР Потенциальная энергия молекулы Предсказание вторичной структуры Предсказание
третичной структуры AB-initio Моделирование гомологов Threading (распознавание фолда) Структурное выравнивание
bull Биологические базы данных и серверы NCBI и сервисы PDB OCA SRS SRS-3D PredictProtein Swiss-Model ExPASy UniProt Серверы
EMBL ENCODE Инструменты Swiss-PDBviewer VMD Accelrys Discovery Studio Актуальные проблемы требующие решения
аннотация генома поиск генов поиск сайтов репликации у человека Сворачивание белков предсказание структуры белка mdash CASP
предсказание функции и клеточной локализации белков Предсказание подвижности белков и классификация протеинов по принципу
подвижности
bull Моделирование подвижности белков Молекулярная динамика и компьютерная графика Maya VMD Моделирование на основе
геометрии
Биоинформатика - наука занимающаяся анализом экспериментальных данных молекулярной биологии секвенированных последовательностей биополимеров экспериментально определенных пространственных структур биологических макромолекул данных об экспрессии генов и тд Методами биоинформатики являются методы организации информации широко понимаемые компьютерные методы методы вычислительной математики и статистики (МС Гельфанд et al)
Европейский Биоинформационный Институт биоинформатика ndash это применение компьютерных технологий для администрирования и анализа биологических данных
Биоинформатика
Structural Genomics
Pharmaco-Genomics
Functional Genomics
Proteomics
Genomics
Bioinformatics
Задачи биоинформатики
bull Функциональная аннотация биополимеров
bull Структурная аннотация биополимеров
bull Эволюция
bull Геномика и протеомика
Биополимеры
ДНК
РНК
(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash
обеспечивающих хранение передачу из поколения в
поколение и реализацию генетической программы развития и
функционирования живых организмов
Протеины (белки)
Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок
Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)
Последовательности белков ndash десятки-тысячи аминокислот
Биополимеры ndash ДНК
Аденин Гуанин
ЦитозинТимин
Аденозинфосфат
Пурины
Пиримидины
Биополимеры - ДНК
J Watson и F Crick Фото из архива Photo Researchers inc
Биополимеры - белки
Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы
Последовательность цепь аминокислот составляет белок
Биополимеры - белки
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Биоинформатика - наука занимающаяся анализом экспериментальных данных молекулярной биологии секвенированных последовательностей биополимеров экспериментально определенных пространственных структур биологических макромолекул данных об экспрессии генов и тд Методами биоинформатики являются методы организации информации широко понимаемые компьютерные методы методы вычислительной математики и статистики (МС Гельфанд et al)
Европейский Биоинформационный Институт биоинформатика ndash это применение компьютерных технологий для администрирования и анализа биологических данных
Биоинформатика
Structural Genomics
Pharmaco-Genomics
Functional Genomics
Proteomics
Genomics
Bioinformatics
Задачи биоинформатики
bull Функциональная аннотация биополимеров
bull Структурная аннотация биополимеров
bull Эволюция
bull Геномика и протеомика
Биополимеры
ДНК
РНК
(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash
обеспечивающих хранение передачу из поколения в
поколение и реализацию генетической программы развития и
функционирования живых организмов
Протеины (белки)
Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок
Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)
Последовательности белков ndash десятки-тысячи аминокислот
Биополимеры ndash ДНК
Аденин Гуанин
ЦитозинТимин
Аденозинфосфат
Пурины
Пиримидины
Биополимеры - ДНК
J Watson и F Crick Фото из архива Photo Researchers inc
Биополимеры - белки
Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы
Последовательность цепь аминокислот составляет белок
Биополимеры - белки
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Биоинформатика
Structural Genomics
Pharmaco-Genomics
Functional Genomics
Proteomics
Genomics
Bioinformatics
Задачи биоинформатики
bull Функциональная аннотация биополимеров
bull Структурная аннотация биополимеров
bull Эволюция
bull Геномика и протеомика
Биополимеры
ДНК
РНК
(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash
обеспечивающих хранение передачу из поколения в
поколение и реализацию генетической программы развития и
функционирования живых организмов
Протеины (белки)
Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок
Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)
Последовательности белков ndash десятки-тысячи аминокислот
Биополимеры ndash ДНК
Аденин Гуанин
ЦитозинТимин
Аденозинфосфат
Пурины
Пиримидины
Биополимеры - ДНК
J Watson и F Crick Фото из архива Photo Researchers inc
Биополимеры - белки
Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы
Последовательность цепь аминокислот составляет белок
Биополимеры - белки
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Задачи биоинформатики
bull Функциональная аннотация биополимеров
bull Структурная аннотация биополимеров
bull Эволюция
bull Геномика и протеомика
Биополимеры
ДНК
РНК
(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash
обеспечивающих хранение передачу из поколения в
поколение и реализацию генетической программы развития и
функционирования живых организмов
Протеины (белки)
Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок
Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)
Последовательности белков ndash десятки-тысячи аминокислот
Биополимеры ndash ДНК
Аденин Гуанин
ЦитозинТимин
Аденозинфосфат
Пурины
Пиримидины
Биополимеры - ДНК
J Watson и F Crick Фото из архива Photo Researchers inc
Биополимеры - белки
Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы
Последовательность цепь аминокислот составляет белок
Биополимеры - белки
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Биополимеры
ДНК
РНК
(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash
обеспечивающих хранение передачу из поколения в
поколение и реализацию генетической программы развития и
функционирования живых организмов
Протеины (белки)
Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок
Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)
Последовательности белков ndash десятки-тысячи аминокислот
Биополимеры ndash ДНК
Аденин Гуанин
ЦитозинТимин
Аденозинфосфат
Пурины
Пиримидины
Биополимеры - ДНК
J Watson и F Crick Фото из архива Photo Researchers inc
Биополимеры - белки
Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы
Последовательность цепь аминокислот составляет белок
Биополимеры - белки
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок
Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)
Последовательности белков ndash десятки-тысячи аминокислот
Биополимеры ndash ДНК
Аденин Гуанин
ЦитозинТимин
Аденозинфосфат
Пурины
Пиримидины
Биополимеры - ДНК
J Watson и F Crick Фото из архива Photo Researchers inc
Биополимеры - белки
Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы
Последовательность цепь аминокислот составляет белок
Биополимеры - белки
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Биополимеры ndash ДНК
Аденин Гуанин
ЦитозинТимин
Аденозинфосфат
Пурины
Пиримидины
Биополимеры - ДНК
J Watson и F Crick Фото из архива Photo Researchers inc
Биополимеры - белки
Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы
Последовательность цепь аминокислот составляет белок
Биополимеры - белки
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Биополимеры - ДНК
J Watson и F Crick Фото из архива Photo Researchers inc
Биополимеры - белки
Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы
Последовательность цепь аминокислот составляет белок
Биополимеры - белки
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Биополимеры - белки
Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы
Последовательность цепь аминокислот составляет белок
Биополимеры - белки
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Биополимеры - белки
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Форматы файлов используемых в биоинформатике
FASTA
gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2
CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
PDB ndash Protein Data Bank
HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-
TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE
KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT
JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------
REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-
REMARK 900 CONTAINING GFP
DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229
HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
GCG
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Способы визуализации
Определение структуры (координат атомов) белка
1) Х-Ray кристаллография
2) Ядерно-магнитный резонанс (NMR)
Эти методы довольно трудоёмки и дороги
3) Предсказание структуры белка
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
X-ray кристаллография
1 Получение упорядоченных кристаллов белка
2 Определение дифракции x-ray
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
X-ray кристаллография
3 Анализ дифракционной картины даёт представление об электронных плотностях
4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей
Tyrosine
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
ЯМР (NMR)
1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле
а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле
б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер
2 Измерение дистанций между атомами в протеине
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
ЯМР
3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Источники информации и базы данных в Интернете
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Типы баз данных
bull Всеобъемлющие базы данных
bull Организмоспецифические
bull Молекулярноспецифические
bull Дополнительные базы данных
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Проблемыbull Биологические базы данных росли последние 20 лет
1 Избыточность множественные записи
2 Неверные последовательности и записи
bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей
2 Старые последовательности
3 Неверные последовательности
4 Неполные аннотации
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Пример GenBankbull GenBank база данных последовательностей NCBI
В 1982 году 700000 bp700 последовательностей
В 2002 году 2900000000022000000 последовательностей
В 2009 году145959997864 bp49063546 последовательностей
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Полные базы данных
Большие базы данных ДНК РНК и белков
Примеры GenBank EMBL swissprot
Имеется обмен информацией между базами
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exprsquo profiles
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
NCBI - GenBank
bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей
bull Источники информации 1 Прямая подача от исследователей
2 Литература
3 Центры исследований последовательностей (Sanger TIgr)
4 Обмен с другими базами (swiss-prot PDB)
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
NCBI - GenBank
GenBank поделён на подбазы
1 Organism specific (Human Bacteria etc)
2 Molecule specific (DNA RNA protein)
3 Sequence specific (Genome mRNA ESTs etc)
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
EMBL
Параллельная GenBank база данных
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Swiss prot
База данных белков
1 Очень хорошо аннотированная
2 Отсутствует избыточность
3 Имеются перекрёстные ссылки
4 ID для нескольких связанных файлов белков
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Организмоориентированные базы
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Молекулоспецифические базы
bull Базы даных ориентированные на группы молекул
GtRDB The Genomic tRNA Database
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
PDB ndash Protein Data Bank
bull Главная база данных 3D структур белков
bull Включает порядка 23000 белковых структур
bull Белки организованы в группы семейства и тд
bull Имеет порядка 5600 точных структур
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
SCOP - Structural Classification Of Proteins
bull Организована в соответствии со структурными семействами белков
bull Иерархическая система
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
NCBI - Entrez
bull Entrez - поисковая машина для баз NCBI
bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)
bull Можно использовать определители полей логические операторы условия и тд
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
NCBI - Entrez
Ограничения
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
SRS (Sequence Retrieval System)
bull Исталлирована на множестве серверов
bull Имеет связи со многими базами данных
bull Предоставляет множество инструментов и служб для анализа
bull Позволяет сохранить результаты работы и анализа и продолжить работу локально
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
SRSРабочая среда
Выбор базы данных
Заполнение формы запроса
Страница результатов
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Парное выравнивание
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo
На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью
Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально
5 млнлет
120 млнлет
1500 млнлет
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Определение
VLSPADKTNVKAAWAKVGAHAAGHG
||| | | |||| | ||||
VLSEAEWQLVLHVWAKVEADVAGHG
Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Какие задачи решает парное выравнивание
bull Нуклеотиды
ndash Изучение эволюционных связей
ndash Поиск генов доменов сигналов hellip
bull Белки
ndash Изучение эволюционных связей
ndash Классификация белковых семейств по функции или
структуре
ndash Идентификация общих доменов по функции или
структуре
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Точечный график
bull Наиболее интуитивный метод для сравнения последовательностей
bull Использование слов вместо символов позволяет уменьшить шум
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Парное выравнивание
Человеческий гемоглобин (HH)
VLSPADKTNVKAAWGKVGAHAGYEG
Миоглобин кашалота (SWM)
VLSEGEWQLVLHVWAKVEADVAGHG
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Парное выравнивание - идентичность
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент идентичности 36000 (| only)
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Парное выравнивание - похожесть
(HH) VLSPADKTNVKAAWGKVGAHAGYEG
||| | | || | |
(SWM) VLSEGEWQLVLHVWAKVEADVAGHG
Процент похожести 40000 (| и )
Процент идентичности 36000 ( только |)
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Парное выравнивание ndash вставка промежутков (gaps)
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Парное выравнивание ndash вставка промежутков
AKWTNLK----WAKV-ADVAGH-G
AK-TNVKAKLPWGKVGAHVAGEYG
- вставкаудаление промежутка
- продление промежутка
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Парное выравнивание - подсчёт
Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков
+ Количество идентичных
+ Количество похожих
- Количество вставленных промежутков
- Количество удлиненных промежутков
Оценка выравнивания
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Парное выравнивание - Scoring
(HH) VLSPADKTNVKAAWGKVGAH-AGYEG
||| | | || || |
(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G
Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Парное выравнивание
bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания
bull Результат ndash выравнивание с наивысшей оценкой
bull Различные системы оценки дают разные лучшие выравнивания
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Система оценки - белкиbull Идентичность подсчитывается количество совпадений и
делится на длину выравниваемого региона
bull Similarity Менее формализованная величина
Category Amino Acid
Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)
Основания His (H) Lys (K) Arg (R)
Ароматические Phe (F) Tyr (Y) Trp (W)
Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)
Гидрофобные Ile (I) Leu (L) Met (M) Val (V)
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Система оценки - белки
Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Парное выравнивание
bull Матрицы для оценки ndash PAM и BLOSUM
bull Системы оценки выравнивания различны для белков и для ДНКРНК
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Матрицы сравнения белков
Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
PAM матрицаbull PAM матрица базируется на
последовательностях с 85 идентичности
У близких белков функции не должны сильно различаться
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
PAM матрицаbull PAM единицы отображают
эволюционную дистанцию
bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот
bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
PAM 1
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
PAM 250
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Парное выравнивание ndash методы сравнения
bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей
bull Локальное выравнивание ndash находит похожие районы в двух последовательностях
Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
PAM матрицыEvolutionary distance (PAM)
Observed
difference
1 1
11 10
23 20
38 30
56 40
80 50
120 60
159 70
250 80
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
BLOSUM Matricesbull Blocks Substitution Matrices
Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности
bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo
по 3-60 aa длиной
bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков
bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Параметры по умолчанию
bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы
bull PAM30 open=9 extension=1
bull PAM250 open=14 extension=2
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Параметры по умолчанию
Выравнивания будут сильно отличаться при использовании различных параметров для промежутков
Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание
Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Параметры по умолчанию
Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Матрицы оценки DNA
bull Похожесть нуклеотидов DNA определить невозможно
bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Матрицы оценки DNA
Мутации делятся на переходы (transitions) и превращения (transversions)
Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)
Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)
By chance transversions должны происходить в 2 раза чаще чем transitions
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Матрицы оценки DNA
bull De-facto transitions происходят чаще
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Матрицы оценки DNA
Унифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -6 2
C -6 -6 2
T -6 -6 -6 2
MatchMismatch
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Матрицы оценки DNA
Неунифицированная матрица подстановок нуклеотидов
From
To
A G C T
A 2
G -4 2
C -6 -6 2
T -6 -6 -4 2
MatchMismatchMismatch
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Глобальное выравнивание
bull Алгоритм Needleman and Wunsch (1970)
bull Находит выравнивание двух полных последовательностей
ADLGAVFALCDRYFQ
|||| |||| |
ADLGRTQN-CDRYYQ
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Дано 2 последовательности x[1hellipn] и y[1hellipm]
При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта
Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]
Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]
Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y
x[1hellipi-1] i
y[1hellipj-1] j
x[1hellip i ] -
y[1hellipj-1] j
x[1hellipi-1] i
y[1hellip j ] -
Динамическое программирование Глобальное выравнивание
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Recursive Relation
Scoring matrix s(ab) s(minus x) = s(xminus) = minusd
Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]
for 1 lt= i lt= n 1 lt= j lt= m
Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d
Fi-1j - d
Needleman-Wunsch 1970
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2
x C T T A G Ay G minus T A minus A
x C T T A G Ay G T minus A minus A
x C T T A G Ay minus G T A minus A
x = CTTAGA y = GTAA
Расчет элементов матрицы
Si1=Si-11+d S1j= S1j-1+d
Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)
bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей
ADLG CDRYFQ
|||| |||| |
ADLG CDRYYQ
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)
Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i
Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)
Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch
Формула скоринга несколько другая
0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d
Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Важно
Выравнивание может не только окончиться но и начаться в любом месте матрицы
Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Данные
bull Пара последовательностей
bull Локальное или глобальное
bull Штрафы за вставкупродление промежутков
bull Матрицы
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Оценка
bull Как можно оценить достоверность выравнивания
bull Какое выравнивание лучше
A T C G C
A T - G C
A A C A A
A A - A A
Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Оценка ndash подход bootstrap
Данные с тем же набором но с разным порядком
1 Перемешивание одной последовательности
2 Повтор выравнивания и его оценка
3 Повторение 1) и 2) много раз
4 Посчёт среднего и SD оценки выравнивания
перемешанной последовательности
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Оценка - bootstrap
Shuffle one of the sequences
Align with thesecond sequence
Calculate mean and standard deviation of shuffled alignments
Compare alignment score with mean of shuffled alignments
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания
со средней оценкой выравнивания перемешанных последовательностей
ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003
Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730
Average quality based on 100 randomizations 349 +- 47
Is it significant349 + 6 47 = 631 ltlt 1239
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
GCG
Gap Глобальное выравнивание
Bestfit Локальное выравнивание
Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Пример Gap or Bestfit
2 человеческих transcription factors
1 SP1 factor binds to GC rich areas
2 EGR-1 factor active at differentiation stage
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Gapgap swegr1_human swsp1_human ndashran=100
Gap uses the algorithm of Needleman and Wunsch to find the alignment of
two complete sequences that maximizes the number of matches and minimizes
the number of gaps
Begin ( 1 )
End ( 543 )
Begin ( 1 )
End ( 696 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( egr1_humanpair )
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Gap OutputGAP of egr1_human check 6989 from 1 to 543
to sp1_human check 4284 from 1 to 696
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 162 Length 783
Ratio 0298 Gaps 23
Percent Similarity 32675 Percent Identity 26974
Average quality based on 100 randomizations 146 +- 70
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28
| | | |
181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240
29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88
| | | | |
241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300
89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148
| | | || | ||||
301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360
149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208
| | || | | | | |
361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419
209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267
| | | || | | | | |
420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468
268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327
| || | | |
469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526
328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385
| | | | | || ||||| | | |||| |
527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586
386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445
| ||||||| ||| | | ||| | | | | | |
587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645
446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505
| || | | | | |
646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
bestfit swsp1_human swegr1_human -ran=100
BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)
Begin ( 1 )
End ( 696 )
Begin ( 1 )
End ( 543 )
What is the gap creation penalty ( 8 )
What is the gap extension penalty ( 2 )
What should I call the paired output display file ( sp1_humanpair )
Bestfit
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
BESTFIT of sp1_human check 4284 from 1 to 696
to egr1_human check 6989 from 1 to 543
Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp
CompCheck 1102
Gap Weight 8 Average Match 2778
Length Weight 2 Average Mismatch -2248
Quality 233 Length 135
Ratio 1779 Gaps 3
Percent Similarity 50000 Percent Identity 39063
Average quality based on 100 randomizations 506 +- 73
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output
sp1_human x egr1_human October 10 2001 1050
526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575
| | | | | | || ||||| | |
327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374
576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622
|||| | | ||||||| ||| | | ||| | | | |
375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424
623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657
| | | | | | | || |
425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457
Bestfit Output