Vvedenie v bioinformatiku_1

Введение в биоинформатикуСовременное положение

Задачи и методы их решения

Порозов Юрий porozovsnsit porozovifccnrit

План курса

bull Введение в биоинформатику цели задачи и методы Основные понятия Аминокислоты протеины и нуклеиновые кислоты Способы

представления информации о последовательностях ndash форматы записи Fasta Genbank PDB и способы визуализации Источники

информации базы данных и Интернет для биоинформатики Протеины пространственное строение функции

bull Молекула ДНК ndash хранилище генетической информации Строение ДНК Упаковка молекулы Комплементарность Гены регуляторные

последовательности сайты связывания Кодирование информации при помощи нуклеотидов Репликация (удвоение молекулы) Анализ

последовательностей Парное выравнивание Алгоритмы выравнивания Множественное выравнивание Применение выравнивания в

биоинформатике примеры

bull Строение белков Первичная структура белка Вторичная структура Третичная и четвертичная структура белка Мотивы и домены α-

структуры β-структуры и их комбинации Функции белков Связь между структурой и функцией белков Главная цепь Боковые цепи

Геометрия главной цепи Конформации белка Конформации боковых цепей Диаграмма Рамачандран и библиотеки ротамеров

bull Предсказание трехмерной структуры белка Фолдинг (сворачивание) белка Парадокс Левенталя Методы определения пространственной

структуры белков X-ray-дифракция Метод ЯМР Потенциальная энергия молекулы Предсказание вторичной структуры Предсказание

третичной структуры AB-initio Моделирование гомологов Threading (распознавание фолда) Структурное выравнивание

bull Биологические базы данных и серверы NCBI и сервисы PDB OCA SRS SRS-3D PredictProtein Swiss-Model ExPASy UniProt Серверы

EMBL ENCODE Инструменты Swiss-PDBviewer VMD Accelrys Discovery Studio Актуальные проблемы требующие решения

аннотация генома поиск генов поиск сайтов репликации у человека Сворачивание белков предсказание структуры белка mdash CASP

предсказание функции и клеточной локализации белков Предсказание подвижности белков и классификация протеинов по принципу

подвижности

bull Моделирование подвижности белков Молекулярная динамика и компьютерная графика Maya VMD Моделирование на основе

геометрии

Биоинформатика - наука занимающаяся анализом экспериментальных данных молекулярной биологии секвенированных последовательностей биополимеров экспериментально определенных пространственных структур биологических макромолекул данных об экспрессии генов и тд Методами биоинформатики являются методы организации информации широко понимаемые компьютерные методы методы вычислительной математики и статистики (МС Гельфанд et al)

Европейский Биоинформационный Институт биоинформатика ndash это применение компьютерных технологий для администрирования и анализа биологических данных

Биоинформатика

Structural Genomics

Pharmaco-Genomics

Functional Genomics

Proteomics

Genomics

Bioinformatics

Задачи биоинформатики

bull Функциональная аннотация биополимеров

bull Структурная аннотация биополимеров

bull Эволюция

bull Геномика и протеомика

Биополимеры

ДНК

РНК

(дезоксирибонуклеиновые и рибонуклеиновые кислоты) ndash

обеспечивающих хранение передачу из поколения в

поколение и реализацию генетической программы развития и

функционирования живых организмов

Протеины (белки)

Последовательность (sequence первичная структура)ndash цепь из мономеров (нуклеотиды или аминокислоты) составляющих ДНК РНК или белок

Последовательности ДНК ndash от 10-20 нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК)

Последовательности белков ndash десятки-тысячи аминокислот

Биополимеры ndash ДНК

Аденин Гуанин

ЦитозинТимин

Аденозинфосфат

Пурины

Пиримидины

Биополимеры - ДНК

J Watson и F Crick Фото из архива Photo Researchers inc

Биополимеры - белки

Аминокислоты - органические соединения в молекуле которых одновременно содержатся карбоксильные и аминные группы

Последовательность цепь аминокислот составляет белок

Форматы файлов используемых в биоинформатике

gtroa1_drome Rea guano receptor type III gtgt 01MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRYgtroa2_drome Rea guano ligandMVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDVVVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVKKLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQKQHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNWNNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGGGGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGNNQGFNNGGNNRRY

GenBankLOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene partial cds and Axl2p (AXL2) and Rev7p (REV7) genes complete cdsACCESSION U49845VERSION U498451 GI1293613KEYWORDS SOURCE Saccharomyces cerevisiae (bakers yeast) ORGANISM Saccharomyces cerevisiae Eukaryota Fungi Ascomycota Saccharomycotina Saccharomycetes Saccharomycetales Saccharomycetaceae SaccharomycesREFERENCE 1 (bases 1 to 5028) AUTHORS TorpeyLE GibbsPE NelsonJ and LawrenceCW TITLE Cloning and sequence of REV7 a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11) 1503-1509 (1994) PUBMED 7871890REFERENCE 2 (bases 1 to 5028) AUTHORS RoemerT MaddenK ChangJ and SnyderM TITLE Selection of axial growth sites in yeast requires Axl2p a novel plasma membrane glycoprotein JOURNAL Genes Dev 10 (7) 777-793 (1996) PUBMED 8846915REFERENCE 3 (bases 1 to 5028) AUTHORS RoemerT TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer Biology Yale University New Haven CT USAFEATURES LocationQualifiers source 15028 organism=Saccharomyces cerevisiae db_xref=taxon4932 chromosome=IX map=9 CDS lt1206 codon_start=3 product=TCP1-beta protein_id=AAA986651 db_xref=GI1293614 translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM gene 6873158 gene=AXL2

CDS 6873158 gene=AXL2 note=plasma membrane glycoprotein codon_start=1 function=required for axial budding pattern of S cerevisiae product=Axl2p protein_id=AAA986661 db_xref=GI1293615 translation=MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN --------------------------------------------------------------------------------------------------- YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK RNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL VDFSNKSNVNVGQVKDIHGRIPEML gene complement(33004037) gene=REV7 CDS complement(33004037) gene=REV7 codon_start=1 product=Rev7p protein_id=AAA986671 db_xref=GI1293616 translation=MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLFORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa 181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg 241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa 301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa ---------------------------------------------------------------------------------------- 4621 tcttcgcact tcttttccca ttcatctctt tcttcttcca aagcaacgat ccttctaccc 4681 atttgctcag agttcaaatc ggcctctttc agtttatcca ttgcttcctt cagtttggct 4741 tcactgtctt ctagctgttg ttctagatcc tggtttttct tggtgtagtt ctcattatta 4801 gatctcaagt tattggagtc ttcagccaat tgctttgtat cagacaattg actctctaac 4861 ttctccactt cactgtcgag ttgctcgttt ttagcggaca aagatttaat ctcgttttct 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc

PDB ndash Protein Data Bank

HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3-

TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID 1 COMPND 2 MOLECULE SIGF1-GFP FUSION PROTEIN COMPND 3 CHAIN A COMPND 4 ENGINEERED YES COMPND 5 OTHER_DETAILS CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID 1 SOURCE 2 ORGANISM_SCIENTIFIC AEQUOREA VICTORIA SOURCE 3 ORGANISM_COMMON FUNGI SOURCE 4 EXPRESSION_SYSTEM ESCHERICHIA COLI SOURCE 5 EXPRESSION_SYSTEM_COMMON BACTERIA SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE PLASMID KEYWDS BETA-BARREL EGFP NON-CANONICAL AMINO ACID CHROMOPHORE

KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH JHBAEPPARAMITA PALLMORODERRHUBERNBUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT

JRNL TITL 3 PROTEIN JRNL REF CHEMBIOCHEM V 5 720 2004 JRNL REF 2 EUROPJCHEMBIOL JRNL REFN GE ISSN 1439-4227 REMARK 1 REMARK 2 REMARK 2 RESOLUTION 210 ANGSTROMS REMARK 3 REMARK 3 REFINEMENT -------------------------------------------------------------------------------------------------------

REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL DEV = 137 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL DEV =-166 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL DEV =-160 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL DEV = 316 DEGREES REMARK 500 LEU A 64 O - C - N ANGL DEV =-159 DEGREES REMARK 500 THR A 97 N - CA - C ANGL DEV =-140 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL DEV =-131 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID 1EMG RELATED DB PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID-

REMARK 900 CONTAINING GFP

DBREF 1RRX A 2 227 UNP P42212 GFP_AEQVI 290 517 SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3 HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH 61(H2 O)

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C ---------------------------------------------------------------------------------------------------ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

HETATM 1822 O HOH 1 30450 20682 37367 100 1575 O HETATM 1823 O HOH 2 26443 24175 38999 100 1882 O ---------------------------------------------------------------------------------HETATM 1831 O HOH 10 29132 18648 45101 100 1377 O HETATM 1832 O HOH 11 24076 46248 42794 100 2262 O HETATM 1833 O HOH 12 31870 32426 52146 100 3677 O HETATM 1880 O HOH 59 37243 14571 53463 100 3112 O HETATM 1881 O HOH 60 40360 20483 56144 100 3274 O HETATM 1882 O HOH 61 13483 49374 33179 100 3077 O CONECT 267 268 CONECT 268 267 269 271 CONECT 819 820 CONECT 1594 1592 1596 1598 CONECT 1595 1593 1596 CONECT 1596 1594 1595 1597 CONECT 1597 1596 CONECT 1598 1594 MASTER 259 0 10 6 12 0 0 6 1881 1 140 18 END

Способы визуализации

Определение структуры (координат атомов) белка

1) Х-Ray кристаллография

2) Ядерно-магнитный резонанс (NMR)

Эти методы довольно трудоёмки и дороги

3) Предсказание структуры белка

X-ray кристаллография

1 Получение упорядоченных кристаллов белка

2 Определение дифракции x-ray

3 Анализ дифракционной картины даёт представление об электронных плотностях

4 laquoНанизываниеraquo известной аминокислотной последовательности на карту электронных плотностей

Tyrosine

ЯМР (NMR)

1 Nuclear Magnetic Resonance - регистрация релаксации ядер тяжёлых атомов в магнитном поле

а) Выравнивание ядер тяжелых атомов в сильном постоянном или импульсном магнитном поле

б) Регистрация резонанса (в постоянном поле) или релаксации (в импульсном поле) атомных ядер

2 Измерение дистанций между атомами в протеине

ЯМР

3 Использует данные тысяч измерений дистанций для построения модели протеина с учётом ограничений

Источники информации и базы данных в Интернете

Типы баз данных

bull Всеобъемлющие базы данных

bull Организмоспецифические

bull Молекулярноспецифические

bull Дополнительные базы данных

Проблемыbull Биологические базы данных росли последние 20 лет

1 Избыточность множественные записи

2 Неверные последовательности и записи

bull Открытость (данные добавляются пользователями)1 Изменения вносятся владельцами записей

2 Старые последовательности

3 Неверные последовательности

4 Неполные аннотации

Пример GenBankbull GenBank база данных последовательностей NCBI

В 1982 году 700000 bp700 последовательностей

В 2002 году 2900000000022000000 последовательностей

В 2009 году145959997864 bp49063546 последовательностей

Полные базы данных

Большие базы данных ДНК РНК и белков

Примеры GenBank EMBL swissprot

Имеется обмен информацией между базами

NCBI (National center for biotechnology information)

PubMed

Nucleotides

Proteins

GenomesTaxonomy

Structure

Domains

Exprsquo profiles

NCBI - GenBank

bull GenBank открытая база данных нуклеотидных и аминокислотных последовательностей

bull Источники информации 1 Прямая подача от исследователей

2 Литература

3 Центры исследований последовательностей (Sanger TIgr)

4 Обмен с другими базами (swiss-prot PDB)

NCBI - GenBank

GenBank поделён на подбазы

1 Organism specific (Human Bacteria etc)

2 Molecule specific (DNA RNA protein)

3 Sequence specific (Genome mRNA ESTs etc)

Параллельная GenBank база данных

Swiss prot

База данных белков

1 Очень хорошо аннотированная

2 Отсутствует избыточность

3 Имеются перекрёстные ссылки

4 ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы

bull Базы даных ориентированные на группы молекул

GtRDB The Genomic tRNA Database

bull Главная база данных 3D структур белков

bull Включает порядка 23000 белковых структур

bull Белки организованы в группы семейства и тд

bull Имеет порядка 5600 точных структур

SCOP - Structural Classification Of Proteins

bull Организована в соответствии со структурными семействами белков

bull Иерархическая система

NCBI - Entrez

bull Entrez - поисковая машина для баз NCBI

bull Поиск начинается с выбора адекватной области для поикса (Nucleotide белки)

bull Можно использовать определители полей логические операторы условия и тд

NCBI - Entrez

Ограничения

SRS (Sequence Retrieval System)

bull Исталлирована на множестве серверов

bull Имеет связи со многими базами данных

bull Предоставляет множество инструментов и служб для анализа

bull Позволяет сохранить результаты работы и анализа и продолжить работу локально

SRSРабочая среда

Выбор базы данных

Заполнение формы запроса

Страница результатов

Парное выравнивание

ГомологиВсе живое произошло от одного общего предка следовательно все последовательности являются laquoгомологамиraquo

На самом деле гомологи ndash только те последовательности похожесть которых можно подтвердить существующими методами с определенной чувствительностью

Белок в двух различных организмах выполняет сходную функцию и это можно подтвердить экспериментально

5 млнлет

120 млнлет

1500 млнлет

Определение

VLSPADKTNVKAAWAKVGAHAAGHG

||| | | |||| | ||||

VLSEAEWQLVLHVWAKVEADVAGHG

Выравнивание (alignment) ndash сравнение двух (парный) или нескольких (множественный) последовательностей Поиск серий идентичных символов в последовательностях

Какие задачи решает парное выравнивание

bull Нуклеотиды

ndash Изучение эволюционных связей

ndash Поиск генов доменов сигналов hellip

bull Белки

ndash Классификация белковых семейств по функции или

структуре

ndash Идентификация общих доменов по функции или

структуре

Точечный график

bull Наиболее интуитивный метод для сравнения последовательностей

bull Использование слов вместо символов позволяет уменьшить шум

Человеческий гемоглобин (HH)

VLSPADKTNVKAAWGKVGAHAGYEG

Миоглобин кашалота (SWM)

VLSEGEWQLVLHVWAKVEADVAGHG

Парное выравнивание - идентичность

(HH) VLSPADKTNVKAAWGKVGAHAGYEG

||| | | || | |

(SWM) VLSEGEWQLVLHVWAKVEADVAGHG

Процент идентичности 36000 (| only)

Парное выравнивание - похожесть

||| | | || | |

Процент похожести 40000 (| и )

Процент идентичности 36000 ( только |)

Парное выравнивание ndash вставка промежутков (gaps)

(HH) VLSPADKTNVKAAWGKVGAH-AGYEG

(SWM) VLSEGEWQLVLHVWAKVEADVAGH-G

bull Gap Weight 4bull Gaps 2bull Процент похожести 54167 bull Процент идентичности 45833

Парное выравнивание ndash вставка промежутков

AKWTNLK----WAKV-ADVAGH-G

AK-TNVKAKLPWGKVGAHVAGEYG

- вставкаудаление промежутка

- продление промежутка

Парное выравнивание - подсчёт

Финальная оценка выравнивания ndash это сумма сумма положительных очков и штрафных очков

+ Количество идентичных

+ Количество похожих

- Количество вставленных промежутков

- Количество удлиненных промежутков

Оценка выравнивания

Парное выравнивание - Scoring

||| | | || || |

Final score (VV) + (LL) + (SS) + (DE) + hellip - (penalty for gap insertion)(number of gaps) - (penalty for gap extension)(extension length)

bull Алгоритмы парного выравнивания пробуют все возможные варианты выравнивания

bull Результат ndash выравнивание с наивысшей оценкой

bull Различные системы оценки дают разные лучшие выравнивания

Система оценки - белкиbull Идентичность подсчитывается количество совпадений и

делится на длину выравниваемого региона

bull Similarity Менее формализованная величина

Category Amino Acid

Кислотыамиды Asp (D) Glu(E) Asn (N) Gln (Q)

Основания His (H) Lys (K) Arg (R)

Ароматические Phe (F) Tyr (Y) Trp (W)

Гидрофильные Ala (A) Cys (C) Gly (G) Pro (P) Ser (S) Thr (T)

Гидрофобные Ile (I) Leu (L) Met (M) Val (V)

Система оценки - белки

Похожесть Положительная оценка для выравниваемых аминокислот из одной и той же группы

bull Матрицы для оценки ndash PAM и BLOSUM

bull Системы оценки выравнивания различны для белков и для ДНКРНК

Матрицы сравнения белков

Семейство матриц которые отражают вероятность замены одной аминокислоты на другую во время эволюции

PAM матрицаbull PAM матрица базируется на

последовательностях с 85 идентичности

У близких белков функции не должны сильно различаться

PAM матрицаbull PAM единицы отображают

эволюционную дистанцию

bull 1 PAM единица ndash вероятность 1 точечной мутации на 100 аминокислот

bull Умножение PAM 1 на себя даёт более высокие матрицы применимые для сравнения белков удалённых эволюционно

PAM 250

Парное выравнивание ndash методы сравнения

bull Глобальное выравнивание ndash находит лучшее решение для целых последовательностей

bull Локальное выравнивание ndash находит похожие районы в двух последовательностях

Глобальное Локальное _____ _______ __ ____ __ ____ ____ __ ____

PAM матрицыEvolutionary distance (PAM)

Observed

difference

120 60

159 70

250 80

BLOSUM Matricesbull Blocks Substitution Matrices

Матрицы PAM обладают ограниченными возможностями так как их laquoрейтинги заменraquo были получены из выравниваний последовательностей с как минимум 85 идентичности

bull Henikoff and Henikoff (1992) разработали сет матриц базирующийся на большем количестве данных (dataset of alignments) BLOSUM учитывает значительно больше замен чем PAM даже для редких пар

BLOSUMbull Блоки ndash короткие стабильные образы laquoшаблоныraquo

по 3-60 aa длиной

bull Белки могут быть поделены на семейства по наличию тех или иных блоков (семейство X содержит блоки abcd) Blosum использует ~500 семейств и ~2000 блоков

bull Различные матрицы Blosum выведены из блоков с различной степенью идентичности blosum62 получена из выравнивания последовательностей с по меньшей мере 62 идентичности

Параметры по умолчанию

bull Параметры для открытияпродления промежутков индивидуальны для каждой матрицы

bull PAM30 open=9 extension=1

Выравнивания будут сильно отличаться при использовании различных параметров для промежутков

Для каждой матрицы параметры по умолчанию генерируют оптимальное выравнивание

Матрицы были тестированы с разными параметрами до тех пор пока не был получено laquoправильное выравниваниеraquo

Мы можем использовать выравнвание последовательностей базирующееся на структурном выравнивании В этом случае структурное выравнивание является laquoправильнымraquo для наших целей

Матрицы оценки DNA

bull Похожесть нуклеотидов DNA определить невозможно

bull Основания делятся на 2 группы пурины (AG) и пиримидины (CT)

Мутации делятся на переходы (transitions) и превращения (transversions)

Transitions ndash пурин на пурин пиримидин на пиримидин (4 варианта)

Transversions ndash пурин на пиримидин или пиримидин на пурин (8 вариантов)

By chance transversions должны происходить в 2 раза чаще чем transitions

bull De-facto transitions происходят чаще

Унифицированная матрица подстановок нуклеотидов

A G C T

G -6 2

C -6 -6 2

T -6 -6 -6 2

MatchMismatch

Неунифицированная матрица подстановок нуклеотидов

A G C T

G -4 2

C -6 -6 2

T -6 -6 -4 2

MatchMismatchMismatch

Глобальное выравнивание

bull Алгоритм Needleman and Wunsch (1970)

bull Находит выравнивание двух полных последовательностей

ADLGAVFALCDRYFQ

|||| |||| |

ADLGRTQN-CDRYYQ

Дано 2 последовательности x[1hellipn] и y[1hellipm]

При выравнивании При выравнивании x[1i] и и y[1hellipj] есть 3 вариантаесть 3 варианта

Совпадение x[1hellipi-1] и y[1hellipj-1] x[i]=y[j]

Совпадение x[1hellipi] и y[1hellipj-1] и совпадение пропуска в x и y[j]

Совпадение x[1hellipi-1] и y[1hellipj] и совпадение x[i] и пропуска в y

x[1hellipi-1] i

y[1hellipj-1] j

x[1hellip i ] -

y[1hellipj-1] j

x[1hellipi-1] i

y[1hellip j ] -

Динамическое программирование Глобальное выравнивание

Recursive Relation

Scoring matrix s(ab) s(minus x) = s(xminus) = minusd

Fij ndash лучшая score-функция выравнивания x[1hellipi] and y[1hellipj]

for 1 lt= i lt= n 1 lt= j lt= m

Fi-1j-1 + s(xiyj) Fij = max Fij-1 - d

Fi-1j - d

Needleman-Wunsch 1970

Scoring scheme s(a a) = 1 s(a b) = minus1 if a ne b and s(minus a) = s(aminus) =minus2

x C T T A G Ay G minus T A minus A

x C T T A G Ay G T minus A minus A

x C T T A G Ay minus G T A minus A

x = CTTAGA y = GTAA

Расчет элементов матрицы

Si1=Si-11+d S1j= S1j-1+d

Все остальные элементы Sij=maxSi-1j+d Sij-1+d Si-1j-1+t где t ndash либо совпадение (1) либо замена (-1)

Локальное выравниваниеbull Алгоритм Smith and Waterman (1981)

bull Выполняет оптимальное выравнивание наиболее идентичногопохожего сегмента двух последовательностей

ADLG CDRYFQ

|||| |||| |

ADLG CDRYYQ

Recursive relationsИнтересует выравнивание подстрок (последовательных сегментов)

Подстрока последовательности x1x2 xn имеет вид xixi+1 xi+k для 1 le i le n and k le n minus i

Smith-Waterman алгоритм [SW] (решение проблемы пробелов между подстроками)

Матрица (n + 1) х (m + 1) также как и в алгоритме Needleman-Wunsch

Формула скоринга несколько другая

0 Fij = max Fi-1j-1 + s(xiyj) Fij-1 - d Fi-1j - d

Где 0 ndash начало нового выравнивания если предыдущее выравнивание дало отрицательный скоринг и продолжать дальше смысла нет

Важно

Выравнивание может не только окончиться но и начаться в любом месте матрицы

Таким образом вместо того чтобы выбирать стартовую точку F(nm) в правом нижнем углу выбирают элементы с максимальным скорингом в матрице

Данные

bull Пара последовательностей

bull Локальное или глобальное

bull Штрафы за вставкупродление промежутков

bull Матрицы

Оценка

bull Как можно оценить достоверность выравнивания

bull Какое выравнивание лучше

A T C G C

A T - G C

A A C A A

A A - A A

Откуда взялись очки (оценка) из порядка следования нуклеотидов или из набора

Оценка ndash подход bootstrap

Данные с тем же набором но с разным порядком

1 Перемешивание одной последовательности

2 Повтор выравнивания и его оценка

3 Повторение 1) и 2) много раз

4 Посчёт среднего и SD оценки выравнивания

перемешанной последовательности

Оценка - bootstrap

Shuffle one of the sequences

Align with thesecond sequence

Calculate mean and standard deviation of shuffled alignments

Compare alignment score with mean of shuffled alignments

Оценка качества выравниванияСравниваем результат (оценку) нашего выравнивания

со средней оценкой выравнивания перемешанных последовательностей

ПравилоIforiginal alignment gtgtaverage score + 6SDThenthe alignment is statistically significant

Program outputGap Weight 12 Average Match 2912 Length Weight 4 Average Mismatch -2003

Quality 1239 Length 356 Ratio 3480 Gaps 0 Percent Similarity 69663 Percent Identity 65730

Average quality based on 100 randomizations 349 +- 47

Is it significant349 + 6 47 = 631 ltlt 1239

Gap Глобальное выравнивание

Bestfit Локальное выравнивание

Обе программы работают с одинаковым набором данных (последовательности scoring matrix etc)

Пример Gap or Bestfit

2 человеческих transcription factors

1 SP1 factor binds to GC rich areas

2 EGR-1 factor active at differentiation stage

Gapgap swegr1_human swsp1_human ndashran=100

Gap uses the algorithm of Needleman and Wunsch to find the alignment of

two complete sequences that maximizes the number of matches and minimizes

the number of gaps

Begin ( 1 )

End ( 543 )

Begin ( 1 )

End ( 696 )

What is the gap creation penalty ( 8 )

What is the gap extension penalty ( 2 )

What should I call the paired output display file ( egr1_humanpair )

Gap OutputGAP of egr1_human check 6989 from 1 to 543

to sp1_human check 4284 from 1 to 696

Symbol comparison table gcg10diskgcggcgcoredatarundatablosum62cmp

CompCheck 1102

Gap Weight 8 Average Match 2778

Length Weight 2 Average Mismatch -2248

Quality 162 Length 783

Ratio 0298 Gaps 23

Percent Similarity 32675 Percent Identity 26974

Gap Output 1 MAAAKAEMQLMSPLQISDPFGSFPHSPT 28

| | | |

181 NSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLVSSQASSSSFFTNANSYST 240

29 MDNYPKLEEMMLLSNGAPQFLGAAGAPEGSGSNSSSSSSGGGGGGGGGSNSSSSSSTFNP 88

| | | | |

241 TTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNIQQNQTSGGSLQAGQQKEGE 300

89 QADTGEQPYEHLTAESFPDISLNNEKVLVETSYPSQTTRLPPITYTGRFSLEPAPNSGNT 148

| | | || | ||||

301 QNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQAISQETLQNLQLQAVPNSGPI 360

149 LWPEPLFSLVSGLVSMTNPPASSSSAPSPAASSASASQSPPLSCAVPSNDSSPIYSAAPT 208

| | || | | | | |

361 IIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQGVSLGQTSSSNTTLTPIASA 419

209 FPTPNTDIFPEPQSQAFPGSAGTALQYPPPAYPAAKGGFQVPMIPDYLFPQQQGDLGLG 267

| | | || | | | | |

420 ASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPIQGLPLAIANA 468

268 TPDQKPFQGLESRTQQPSLTPLSTIKAFATQSGSQDLKALNTSYQSQLIKPSRMRKYPNR 327

| || | | |

469 PGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTCPYCKDSEGR 526

328 PSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTT 385

| | | | | || ||||| | | |||| |

527 GSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGKRFTRSDELQR 586

386 HIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDKKADKSVVASSATSSLSSYPSP 445

| ||||||| ||| | | ||| | | | | | |

587 HKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTLPLDSGAGSEG 645

446 VATSYPSPVTTSYPSPATTSYPSPVPTSFSSPGSSTYPSPVHSGFPSPSVATTYSSVPPA 505

| || | | | | |

646 SGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGNGF 696

bestfit swsp1_human swegr1_human -ran=100

BestFit выполняет локальное выравнивание наиболее похожих сегментов используя local homology algorithm (Smith and Waterman)

Begin ( 1 )

End ( 696 )

Begin ( 1 )

End ( 543 )

What should I call the paired output display file ( sp1_humanpair )

Bestfit

BESTFIT of sp1_human check 4284 from 1 to 696

to egr1_human check 6989 from 1 to 543

CompCheck 1102

Ratio 1779 Gaps 3

Bestfit Output

sp1_human x egr1_human October 10 2001 1050

526 RGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCG 575

| | | | | | || ||||| | |

327 RPSKTPPHERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICM 374

576 KRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNK 622

|||| | | ||||||| ||| | | ||| | | | |

375 RNFSRSDHLTTHIRTHTGEKPFACDICGRKFARSDERKRHTKIHLRQKDK 424

623 KGGPGVALSVGTLPLDSGAGSEGSGTATPSALITT 657

| | | | | | | || |

425 KADKSVVASSATSSLSSYPSPVATSYPSPVTTS 457

Bestfit Output

Введение в биоинформатику Современное положение Задачи и методы их решения Порозов Юрий porozovsnsit porozovifccnrit

HELIX 1 1 GLU A 5 THR A 9 5 5 HELIX 2 2 ALA A 37 YOF A 39 5 3 HELIX 3 3 PRO A 56 VAL A 61 5 6 HELIX 4 4 VAL A 68 SER A 72 5 5 HELIX 5 5 PRO A 75 HIS A 81 5 7 HELIX 6 6 ASP A 82 ALA A 87 1 6 SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A 36 -1 O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A 48 -1 O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A 227 -1 O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A 208 -1 N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A 155 -1 N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A 170 -1 O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A 187 -1 O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A 100 -1 N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A 115 -1 O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A 128 -1 O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A 89 0 050 CRYST1 51003 62430 70931 9000 9000 9000 P 21 21 21 4 ORIGX1 1000000 0000000 0000000 000000 ORIGX2 0000000 1000000 0000000 000000 ORIGX3 0000000 0000000 1000000 000000 SCALE1 0019607 0000000 0000000 000000 SCALE2 0000000 0016018 0000000 000000 SCALE3 0000000 0000000 0014098 000000 ATOM 1 N SER A 2 28277 8150 50951 100 5700 N ATOM 2 CA SER A 2 27454 9223 51584 100 5540 C ATOM 3 C SER A 2 25972 8992 51295 100 5544 C ATOM 4 O SER A 2 25576 7932 50799 100 5437 O ATOM 5 CB SER A 2 27883 10601 51046 100 7082 C ATOM 6 OG SER A 2 27150 11676 51622 100 7145 O ATOM 7 N LYS A 3 25157 9993 51619 10014128 N ATOM 8 CA LYS A 3 23716 9932 51398 10014016 C --------------------------------------------------------------------------------------------------- ATOM 47 CA PHE A 8 26551 11090 41294 100 1927 C ATOM 48 C PHE A 8 27751 10357 40676 100 2143 C ATOM 49 O PHE A 8 28562 10924 39938 100 2144 O ATOM 50 CB PHE A 8 27022 12362 41991 100 2168 C ATOM 51 CG PHE A 8 25909 13297 42288 100 1760 C ATOM 52 CD1 PHE A 8 25488 14212 41321 100 1495 C ATOM 495 CA VAL A 68 23860 22610 40452 100 1412 C ATOM 496 C VAL A 68 25259 22196 40854 100 1341 C ATOM 1164 CA SER A 147 37123 31083 35325 100 2188 C ATOM 1819 CD1 ILE A 229 38888 21450 53055 100 2911 C ATOM 1820 OXT ILE A 229 43220 19637 50148 100 2525 O TER 1821 ILE A 229

ЯМР (NMR)

ЯМР

Проблемы

Пример GenBank

NCBI - GenBank

Swiss prot

NCBI - Entrez

Гомологи

PAM матрица

PAM 250

PAM матрицы

BLOSUM Matrices

BLOSUM

Recursive Relation

Локальное выравнивание

Recursive relations

Данные

Оценка

Оценка качества выравнивания

Gap Output