57
Introduction à la Bioinformatique (2) [email protected] SIB Institut Suisse de Bioinformatique Groupe Swiss-Prot Novembre 2013 tp://education.expasy.org/cours/Intro_bioinfo_biolo

Introduction à la Bioinformatique (2)

  • Upload
    chaela

  • View
    52

  • Download
    3

Embed Size (px)

DESCRIPTION

Introduction à la Bioinformatique (2). http://education.expasy.org/cours/Intro_bioinfo_biolo2_2013. [email protected] SIB Institut Suisse de Bioinformatique Groupe Swiss-Prot Novembre 2013. Indispensible for bioinformatic studies. Databases (free access on the web) - PowerPoint PPT Presentation

Citation preview

Page 1: Introduction à la Bioinformatique (2)

Introduction à la Bioinformatique (2)

[email protected]

SIB Institut Suisse de Bioinformatique

Groupe Swiss-Prot

Novembre 2013

http://education.expasy.org/cours/Intro_bioinfo_biolo2_2013

Page 2: Introduction à la Bioinformatique (2)
Page 3: Introduction à la Bioinformatique (2)

Indispensible for bioinformatic studies

1. Databases (free access on the web)

2. Software tools3. Servers

Page 4: Introduction à la Bioinformatique (2)

• Selected categories of life sciences databases

1. Nucleotide sequences

2. Genomics

3. Mutation/polymorphism

4. Protein sequences

5. Protein domain/family

6. Proteomics (2D gel, Mass Spectrometry)

7. 3D structure

8. Metabolism/Pathways

9. Bibliography

10.Others

Page 5: Introduction à la Bioinformatique (2)

Coding Sequence (CDS)

Page 6: Introduction à la Bioinformatique (2)

Indispensible for bioinformatic studies

1. Databases (free access on the web)

2. Software tools3. Servers

Page 7: Introduction à la Bioinformatique (2)

Analyse des séquences ADN et ARN

Page 8: Introduction à la Bioinformatique (2)

Assemblage d’un génome….un challenge…

Page 9: Introduction à la Bioinformatique (2)

• Prédiction de gène - Détection des régions codant pour des protéines - Détection des régions codant pour des ARN fonctionnels (exemples: tRNA,

rARN, miRNA).

• Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.;

• Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.;

• Analyse des sites de restriction (enzymes);

• Traduction ADN en protéine;

Analyse des séquences ADN et ARN

Page 10: Introduction à la Bioinformatique (2)

• Prédiction de gène - Détection des régions codant pour des protéines - Détection des régions codant pour des ARN fonctionnels (exemples: tRNA,

rARN, miRNA).

• Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.;

• Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.;

• Analyse des sites de restriction (enzymes);

• Traduction ADN en protéine;

Analyse des séquences ADN et ARN

Page 11: Introduction à la Bioinformatique (2)

Exemple: Genscan (http://genes.mit.edu/GENSCAN.html)

Biais des codons, conservation des dicodons (hexamers)

Page 12: Introduction à la Bioinformatique (2)

AUG Stop Poly (A) tailPrimary RNA transcript

Mature mRNA

Detect signals….Detect signals….

AUG Stop Poly (A) tail

ATG AATAAA

Terminator Codon forprotein synthesis(TGA, TAA, TAG)

splicing

Page 13: Introduction à la Bioinformatique (2)

Jigsaw prediction for the human genome (chromosome 1)

Page 14: Introduction à la Bioinformatique (2)
Page 15: Introduction à la Bioinformatique (2)
Page 16: Introduction à la Bioinformatique (2)

• Prédiction de gène - Détection des régions codant pour des protéines - Détection des régions codant pour des ARN fonctionnels (exemples: tRNA,

rARN, miRNA).

• Détection de régions ADN importantes non-codantes comme les signaux de transcription (promoteur), origines de la réplication, etc.;

• Détection de séquences « repeats » comme les microsatellites, minisatellites, Alu repeats, etc.;

• Analyse des sites de restriction (enzymes);

• Traduction ADN en protéine;

Page 17: Introduction à la Bioinformatique (2)
Page 18: Introduction à la Bioinformatique (2)
Page 19: Introduction à la Bioinformatique (2)
Page 20: Introduction à la Bioinformatique (2)

5’-ATGGTAACATGGC-3’3’-TACCATTGTACCG-5’

Reading framesReading frames

Forward strand:Frame 1: ATG GTA ACA TGG C..

Page 21: Introduction à la Bioinformatique (2)

5’-ATGGTAACATGGC-3’3’-TACCATTGTACCG-5’

Reading framesReading frames

Forward strand:Frame 1: ATG GTA ACA TGG C..Frame 2: ..A TGG TAA CAT GGCFrame 3: .AT GGT AAC ATG GC.

Reverse strand:Frame 4: GCC ATG TTA CCA T..Frame 5: ..G CCA TGT TAC CATFrame 6: .GC CAT GTT ACC AT.

Page 22: Introduction à la Bioinformatique (2)

Une séquence de protéine: Met -------- STOP: quelle est la bonne ?

Page 23: Introduction à la Bioinformatique (2)

Analyse des séquences de protéines

Page 24: Introduction à la Bioinformatique (2)

>seq4 MSTNNYQTLSQNKADRMGPGGSRRPRNSQHATASTPSASSCKEQQKDVEH

EFDIIAYKTTFWRTFFFYALSFGTCGIFRLFLHWFPKRLIQFRGKRCSVE NADLVLVVDNHNRYDICNVYYRNKSGTDHTVVANTDGNLAELDELRWFKY RKLQYTWIDGEWSTPSRAYSHVTPENLASSAPTTGLKADDVALRRTYFGP NVMPVKLSPFYELVYKEVLSPFYIFQAISVTVWYIDDYVWYAALIIVMSL YSVIMTLRQTRSQQRRLQSMVVEHDEVQVIRENGRVLTLDSSEIVPGDVL VIPPQGCMMYCDAVLLNGTCIVNESMLTGESIPITKSAISDDGHEKIFSI DKHGKNIIFNGTKVLQTKYYKGQNVKALVIRTAYSTTKGQLIRAIMYPKP ADFKFFRELMKFIGVLAIVAFFGFMYTSFILFYRGSSIGKIIIRALDLVT IVVPPALPAVMGIGIFYAQRRLRQKSIYCISPTTINTCGAIDVVCFDKTG TLTEDGLDFYALRVVNDAKIGDNIVQIAANDSCQNVVRAIATCHTLSKIN NELHGDPLDVIMFEQTGYSLEEDDSESHESIESIQPILIRPPKDSSLPDC QIVKQFTFSSGLQRQSVIVTEEDSMKAYCKGSPEMIMSLCRPETVPENFH DIVEEYSQHGYRLIAVAEKELVVGSEVQKTPRQSIECDLTLIGLVALENR LKPVTTEVIQKLNEANIRSVMVTGDNLLTALSVARECGIIVPNKSAYLIE HENGVVDRRGRTVLTIREKEDHHTERQPKIVDLTKMTNKDCQFAISGSTF SVVTHEYPDLLDQLVLVCNVFARMAPEQKQLLVEHLQDVGQTVAMCGDGA NDCAALKAAHAGISLSEAEASIAAPFTSKVADIRCVITLISEGRAALVTS YSAFLCMAGYSLTQFISILLLYWIATSYSQMQFLFIDIAIVTNLAFLSSK TRAHKELASTPPPTSILSTASMVSLFGQLAIGGMAQVAVFCLITMQSWFI PFMPTHHDNDEDRKSLQGTAIFYVSLFHYIVLYFVFAAGPPYRASIASNK AFLISMIGVTVTCIAIVVFYVTPIQYFLGCLQMPQEFRFIILAVATVTAV ISIIYDRCVDWISERLREKIRQRRKGA

Page 25: Introduction à la Bioinformatique (2)

• Caractérisation physicochimique (pI, pM, coefficient extinction…)• Prédiction de la localisation subcellulaire (“signal séquences”,

“transit peptides”);• Recherche de régions transmembranaires;• Recherche des régions fonctionnelles (domaines conservés)• Recherche de sites de modifications post-traductionelles (PTM). • Recherche de régions antigéniques.

Page 26: Introduction à la Bioinformatique (2)

Conclusion de l’analyse in silico d’une protéine inconnue

Poids moléculaire: 126 kD;Fonction: ATPase potentielle;Localisation subcellulaire: Membrane plasmique.Transmembranaire (~10 hélices); N terminal: intracellulaire; C terminal: intracellulaire)PTM: Phosphorylée

Ça me semble biologique …mais

reste à le prouver !

Page 27: Introduction à la Bioinformatique (2)

Comparaison de séquences

Page 28: Introduction à la Bioinformatique (2)

• Mettre en relation 2 séquences en comparant les acides aminés à chaque position et en tenant compte de leur probabilité de mutation au cours de l’évolution;

MY-TAIL--ORIS-RICH-#x #### x#x# ####MONTAILLEURESTRICHE

(algorithme pour comparer des chants d’oiseaux)

Page 29: Introduction à la Bioinformatique (2)

Matrice de substitution (BLOSUM62)

Page 30: Introduction à la Bioinformatique (2)

Application :Recherche de similarité (BLAST)

Basic Local Alignment Search Tool

Page 31: Introduction à la Bioinformatique (2)

Outil bioinformatique très efficace,

permettant de trouver les séquences similaires

à une séquence données (protéine ou nucléique)

-> Compare une séquence ‘query’ avec toutes les séquences existantes dans les banques de données

(UniProtKB: 26 mo d’entrées).

Résultats: une liste d’entrées avec des scores de ‘similarité’

Recherche de similarité (BLAST)

Page 32: Introduction à la Bioinformatique (2)
Page 33: Introduction à la Bioinformatique (2)

BLAST (www.uniprot.org)

Est-ce qu’il existe une protéine similaire à l’hémoglobine humaine chez les plantes ?

Séquence de l’hémoglobine humaine

Probabilité de retrouver la même séquence par hasard…

Page 34: Introduction à la Bioinformatique (2)

Sur quel chromosome humain se situe le gène HBB ?Une séquence au hasard (ATGC) se retrouve-t-elle sur le génome ?

Page 35: Introduction à la Bioinformatique (2)

Probabilité de retrouver la même séquence par hasard…

Page 36: Introduction à la Bioinformatique (2)

Alignement multiple

Page 37: Introduction à la Bioinformatique (2)

Hélice alpha

Hélice alpha

Peptide signal

Alignement multiple des séquences d’insuline

clustalW, T coffee, muscle…

Page 38: Introduction à la Bioinformatique (2)

Alignement multiple ‘hémoglobine béta’ (HBB) @ UniProt

Page 39: Introduction à la Bioinformatique (2)
Page 40: Introduction à la Bioinformatique (2)

Application:Analyse phylogénétique

Page 41: Introduction à la Bioinformatique (2)
Page 42: Introduction à la Bioinformatique (2)
Page 43: Introduction à la Bioinformatique (2)

Il est possible de construire un arbre phylogénétique à partir de différents types de données:

– Les données morphologiques (écailles ou plumes, présence de certains os du crâne, forme des feuilles…). Il existe quelques centaines de caractères définis dans ce but par les spécialistes.

– Les caractères physiologiques (température corporelle…)

Mais aussi…

– L’ordre des gènes (par exemple sur l’ADN des mitochondries)– Les données moléculaires (séquences d’ADN ou de protéines). Des mutations

modifient les séquences de l’ADN et par conséquent des protéines au cours de l’évolution.

– toutes les données existantes….(défi scientifique !)

Page 44: Introduction à la Bioinformatique (2)

http://www.unige.ch/450/expositions/genome/presentation/slogans.html

Page 45: Introduction à la Bioinformatique (2)

Le principe

• 1. Sélection: set de séquences de protéines ‘homologues’

• 2. Comparaison: alignement multiple

• 3. Construction de l’arbre: ‘calculer les différences’ + quelques calculs statistiques…

Page 46: Introduction à la Bioinformatique (2)

Actin-related protein 2

ARP2_A MESAP---IVLDNGTGFVKVGYAKDNFPRFQFPSIVGRPILRAEEKTGNVQIKDVMVGDEARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEEARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDEARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDEARP2_E MDSKGRNVIVCDNGTGFVKCGYAGSNFPTHIFPSMVGRPMIRAVNKIGDIEVKDLMVGDE *:* :* ******** *** *** . **::****::*: . *::::**:***:*

Les différentes espèces sont:Caenorhabditis briggsaeDrosophila melanogasterHomo sapiensMus musculusSchizosaccharomyces pombe

Quelle séquence ‘appartient’ à quelle espèce ?

?

Page 47: Introduction à la Bioinformatique (2)

• ARP2_A MESAP---IVLDNGTGFVKVGYAKDNFPRFQFPSIVGRPILRAEEKTGNVQIKDVMVGDE• ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE• *:* **:******** *** *** . ***:*****:*: :..**::***:***:*

• ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE• ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE• ********:* *************:*** ****::*****:*** .************:*

• ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE• ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE• ************************************************************

• ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE• ARP2_E MDSKGRNVIVCDNGTGFVKCGYAGSNFPTHIFPSMVGRPMIRAVNKIGDIEVKDLMVGDE• ***:**:*:******************* ****::****:**:..*:*:**:********

• ARP2_A MESAP---IVLDNGTGFVKVGYAKDNFPRFQFPSIVGRPILRAEEKTGNVQIKDVMVGDE• ARP2_C MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE• *:* :* ******** *** .*** . **::*****:*: *.**::***:*****

• ARP2_D MDSQGRKVVVCDNGTGFVKCGYAGSNFPEHIFPALVGRPIIRSTTKVGNIEIKDLMVGDE• ARP2_B MDSQGRKVIVVDNGTGFVKCGYAGTNFPAHIFPSMVGRPIVRSTQRVGNIEIKDLMVGEE• ********:* *************:*** ****::*****:*** .************:*

Page 48: Introduction à la Bioinformatique (2)

Le principe

• 1. Sélection: set de séquences de protéines ‘homologues’• 2. Comparaison: alignement multiple• 3. Construction de l’arbre: ‘calculer les différences’

Page 49: Introduction à la Bioinformatique (2)
Page 50: Introduction à la Bioinformatique (2)

www.phylogeny.fr

http://www.phylogeny.fr/

Page 51: Introduction à la Bioinformatique (2)

Cladrogramme obtenu à partir de l’analyse phylogénétique de l’alignement multiple des séquences d’insuline- Qui est le cousin de qui ? Qui a un ancêtre commun ?

www.phylogeny.fr

Page 52: Introduction à la Bioinformatique (2)

http://education.expasy.org/cgi-bin/philophylo/philophylo.cgi

Page 53: Introduction à la Bioinformatique (2)

Application: meta-genomics analysis

Page 54: Introduction à la Bioinformatique (2)
Page 55: Introduction à la Bioinformatique (2)

Acquérir puis stocker les informations biologiques sous la forme d’encyclopédies appelées bases de données;

Visualiser: développer des programmes pour visualiser la structure en trois dimensions des protéines et de l’ADN, pour shématiser des voies métaboliques ou des arbres phylogénétiques.

Développer des programmes de prédiction et d’analyse en utilisant les informations contenues dans les bases de données;

Analyser/Interpréter/Prédire: utiliser ces programmes pour analyser de ‘nouvelles’ données biologiques et prédire in silico par exemple la fonction potentielle d’une protéine;

Résumé: la bioinfo c’est…

Page 56: Introduction à la Bioinformatique (2)

Conclusions

Extraordinaire potentiel de la bioinformatique…mais ne elle ne remplace(ra) pas les expériences «wet lab»

génomiques, protéomiques et autres, ni l’esprit critique humain (contexte biologique)

…ni le besoin de savoir programmer un minimum !

La bioinfo fournit des outils performants aux chercheurs…mais elle ne peut pas encore tout faire….

Les données expérimentales des chercheurs permettentd’améliorer les programmes bioinformatiques (prédiction)…

Page 57: Introduction à la Bioinformatique (2)

Avant …

Après …