Upload
marzia-di-gregorio
View
221
Download
3
Embed Size (px)
Citation preview
Sequenze e Banche Sequenze e Banche Dati BiologicheDati Biologiche
SequenzeSequenze
Le sequenze “pubbliche” sono Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di innanzitutto depositate dai gruppi di ricerca in ricerca in databasedatabase pubblici pubblici accessibili via Internetaccessibili via Internet
I database principali sono curati da I database principali sono curati da organizzazioni internazionaliorganizzazioni internazionali
The National Center for The National Center for Biotechnology Information (Biotechnology Information (NCBINCBI) ) http://www.ncbi.nlm.nih.gov/http://www.ncbi.nlm.nih.gov/
European Bioinformatics Institute European Bioinformatics Institute ((EBIEBI) ) http://www.ebi.ac.uk/http://www.ebi.ac.uk/
NCBINCBI
National Center for Biotechnology Information : creato come parte della National Library of Medicine nel 1988
GenBank (1992) – banca dati nucleotidica
Free MEDLINE (PubMed, 1997) Altri database: Protein, dbEST,
dbGSS, dbSTS, MMDB, OMIM, UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink, RefSeq
Programmi di analisi bioinformatica utilizzabili on-line o scaricabili
Che tipi di sequenze?Che tipi di sequenze?
Sequenze genomiche (DNA)Sequenze genomiche (DNA) Interi genomiInteri genomi Interi cromosomiInteri cromosomi ““Frammenti” (es. singolo gene), scaffold Frammenti” (es. singolo gene), scaffold
e contig e contig Sequenze di mRNASequenze di mRNA
Complete o parziali (le EST!)Complete o parziali (le EST!) Sequenze di RNA non codificantiSequenze di RNA non codificanti Sequenze proteicheSequenze proteiche
NCBI : non Solo Sequenze...NCBI : non Solo Sequenze...
Ogni collegamento indica che
esistono link che vanno dalle entry di
un database alleentry di un altro
Quante sequenze Quante sequenze conosciamo?conosciamo?
As of 15 February 2012, GenBank release 188.0 has 137,384,889,783 bases,
from 149,819,246 reported sequences.
Non Solo Sequenze...Non Solo Sequenze...
SequenzeSequenze
Nelle banche dati si trovano le Nelle banche dati si trovano le sequenze stesse, più sequenze stesse, più annotazioniannotazioni
Le annotazioni (quando disponibili) Le annotazioni (quando disponibili) elencano tutto ciò che si conosce elencano tutto ciò che si conosce della sequenza stessadella sequenza stessa
Spesso, Spesso, è utile consultare le è utile consultare le annotazioniannotazioni su un dato su un dato gene/proteina, senza “utilizzare” la gene/proteina, senza “utilizzare” la sequenza stessasequenza stessa
Oppure, si possono Oppure, si possono scaricare le scaricare le sequenzesequenze per analizzarle per analizzarle
Esempi di AnnotazioniEsempi di Annotazioni
Genoma (DNA)Genoma (DNA) Localizzazione dei geni (start-end) nei genomiLocalizzazione dei geni (start-end) nei genomi Localizzazione dei trascrittiLocalizzazione dei trascritti Divisione in introni-esoniDivisione in introni-esoni Proteina prodotta dal geneProteina prodotta dal gene Funzione della proteinaFunzione della proteina
mRNAmRNA Proteina codificata e sua funzioneProteina codificata e sua funzione Inizio e fine della traduzioneInizio e fine della traduzione
ProteinaProteina Da quale mRNA/gene è codificataDa quale mRNA/gene è codificata Qual è la funzioneQual è la funzione
Database (o banca dati)Database (o banca dati)
Un Un databasedatabase è suddiviso è suddiviso in in entryentry
Una Una entryentry è suddivisa in è suddivisa in campicampi
Esempio: il catalogo di Esempio: il catalogo di una biblioteca: ogni una biblioteca: ogni cartellino è un’entry cartellino è un’entry divisa in divisa in numero di catalogonumero di catalogo tipo pubblicazione (libro, tipo pubblicazione (libro,
giornale, ecc.)giornale, ecc.) autoreautore titolo,titolo, editoreeditore anno di pubblicazioneanno di pubblicazione luogo di pubblicazione, luogo di pubblicazione,
ecc.ecc.
Catalogo: LIB001
Tipo : LIBRO
Titolo : Il codice da Vinci
Autore: Brown, Dan
Editore : Mondadori
Anno: 2003
ecc. ecc.
Database BiologiciDatabase Biologici
Ogni sequenza è Ogni sequenza è contenuta in un’entrycontenuta in un’entry
L’entry è annotata conL’entry è annotata con Numero di catalogo Numero di catalogo
((univocounivoco, lo stesso in , lo stesso in tutto il mondo)tutto il mondo)
Tipo sequenza (DNA, Tipo sequenza (DNA, RNA, proteina)RNA, proteina)
Organismo di Organismo di provenienzaprovenienza
““Titolo” della Titolo” della sequenza (prodotto sequenza (prodotto del gene, nome della del gene, nome della proteina)proteina)
e altre informazioni e altre informazioni (se e quando (se e quando disponibili)disponibili)
Catalogo: NM_000546
Tipo : mRNA
Organismo : Homo sapiens
Titolo: tp53 gene, mRNA
Proteina : tumor protein 53
Anno sequenziamento: 2003
Localizzazione: chr 17
Database BiologiciDatabase Biologici
E’ possibile fare E’ possibile fare ricerche per parole ricerche per parole chiave, magari limitate chiave, magari limitate a uno dei “campi” del a uno dei “campi” del “cartellino”“cartellino”
Esempi: Esempi: cercami la sequenza cercami la sequenza
con numero di con numero di catalogo NM_000546catalogo NM_000546
cercami la sequenza cercami la sequenza del trascritto del gene del trascritto del gene tp53tp53
cercami tutte le cercami tutte le sequenze di Homo sequenze di Homo sapienssapiens
cercami tutte le cercami tutte le sequenze localizzate sequenze localizzate sul cromosoma 17.sul cromosoma 17.
Catalogo: NM_000546
Tipo : mRNA
Organismo : Homo sapiens
Titolo: tp53 gene, mRNA
Proteina : tumor protein 53
Anno sequenziamento: 2003
Localizzazione: chr 17
Le “Sequenze di Riferimento”Le “Sequenze di Riferimento”
Quindi: se un gene produce tanti trascritti, e io ho bisogno Quindi: se un gene produce tanti trascritti, e io ho bisogno dell’mRNA di un dato gene, me li devo scaricare tutti?dell’mRNA di un dato gene, me li devo scaricare tutti?
Spesso inutileSpesso inutile, se le differenze sono minime oppure se , se le differenze sono minime oppure se non sono particolarmente interessato a splicing & conon sono particolarmente interessato a splicing & co
RefSeqRefSeq (Reference Sequence – Sequenze di (Reference Sequence – Sequenze di Riferimento): per ciascun gene è stato selezionato un Riferimento): per ciascun gene è stato selezionato un trascritto “trascritto “rappresentativorappresentativo” “tipico” di quel gene” “tipico” di quel gene
Idem per le proteine codificate: sono quelle codificate dal Idem per le proteine codificate: sono quelle codificate dal trascritto RefSeqtrascritto RefSeq
I trascritti RefSeq sono “catalogati” con un codice che I trascritti RefSeq sono “catalogati” con un codice che inizia per NM_ seguito da 6 numeri (es: inizia per NM_ seguito da 6 numeri (es: NM_000546NM_000546))
Le proteine prodotte da RefSeq sono catalogate con Le proteine prodotte da RefSeq sono catalogate con codice codice NP_XXXXXXNP_XXXXXX
ATTENZIONE: i RefSeq spesso non tengono conto degli ATTENZIONE: i RefSeq spesso non tengono conto degli splicing alternativisplicing alternativi
Naturalmente ogni altra sequenza depositata in banca Naturalmente ogni altra sequenza depositata in banca dati ha un identificativo univoco, non solo quelle RefSeq, dati ha un identificativo univoco, non solo quelle RefSeq, costituito da una o due lettere seguito da una sequenza di costituito da una o due lettere seguito da una sequenza di numeri (es. AK312116)numeri (es. AK312116)
Le Annotazioni sui GenomiLe Annotazioni sui Genomi
Spulciarsi qualche milione di paia di basi Spulciarsi qualche milione di paia di basi (con migliaia e migliaia di annotazioni) in (con migliaia e migliaia di annotazioni) in modo testuale è un incubo...modo testuale è un incubo...
Per osservare le annotazioni su una Per osservare le annotazioni su una sequenza genomica, si utilizzano i sequenza genomica, si utilizzano i ““browser genomicibrowser genomici” che permettono di ” che permettono di “visualizzare” le annotazioni, “zoomando” “visualizzare” le annotazioni, “zoomando” su determinate regioni fino a livello di su determinate regioni fino a livello di singole paia di basisingole paia di basi
Per sequenze più piccole (mRNA, ad Per sequenze più piccole (mRNA, ad esempio) è sufficiente esaminare l’entry esempio) è sufficiente esaminare l’entry corrispondentecorrispondente
Le Annotazioni sulle Le Annotazioni sulle SequenzeSequenze Le annotazioni su una sequenza sono riportate in Le annotazioni su una sequenza sono riportate in
“coordinate” sulla sequenza stessa“coordinate” sulla sequenza stessa Genoma: Genoma: coordinate genomichecoordinate genomiche
Cromosoma e posizione all’interno del cromosomaCromosoma e posizione all’interno del cromosoma Altre sequenze: sono numerate a partire da 1Altre sequenze: sono numerate a partire da 1
Esempio: mRNA di 1200 bp. CDS (regione Esempio: mRNA di 1200 bp. CDS (regione codificante) da 100 a 999. Quindicodificante) da 100 a 999. Quindi
Da 1 a 99 c’è la 5’UTRDa 1 a 99 c’è la 5’UTR Da 100 a 999 (incluso) c’è la regione codificante Da 100 a 999 (incluso) c’è la regione codificante Da 1000 a 1200 c’è la 3’UTRDa 1000 a 1200 c’è la 3’UTR
Ricordatevi sempre che le sequenze sono Ricordatevi sempre che le sequenze sono orientateorientate: : 1 sta al 5’ (N terminale) la fine sta al 3’ (o C 1 sta al 5’ (N terminale) la fine sta al 3’ (o C terminale)terminale)
5’ 3’
1 100 999 1200
EntryEntry
Oltre alla sequenza, il Oltre alla sequenza, il “cartellino” della entry contiene “cartellino” della entry contiene diverse informazioni aggiuntive diverse informazioni aggiuntive (alcune affidabili, altre meno, (alcune affidabili, altre meno, altre inutili!) e link che puntano a altre inutili!) e link che puntano a risorse “collegate” alla sequenzarisorse “collegate” alla sequenza
Esempio trascritto: Esempio trascritto: NM_002032NM_002032 Esempio proteina: Esempio proteina: NP_002023NP_002023
Descrizione
Lunghezza
Tipo Sequenza
Divisione(primati)
Data inserimentonel database
Versione (attenzione alnumero dopo il punto)
Link IncrociatiLink Incrociati
Se nella sequenza è annotata una Se nella sequenza è annotata una parte codificante è riportata la parte codificante è riportata la traduzionetraduzione
Se esiste anche una entry Se esiste anche una entry corrispondente alla proteina, c’è il corrispondente alla proteina, c’è il link all’entrylink all’entry
Se si conosce il gene corrispondente Se si conosce il gene corrispondente e la posizione, c’è un linke la posizione, c’è un link
Link a pubblicazioni che parlano Link a pubblicazioni che parlano della sequenza (come è stata della sequenza (come è stata determinata, qual è la funzione)determinata, qual è la funzione)
Info sulla SequenzaInfo sulla Sequenza
Da che organismo arriva,che tipo di sequenza è,
dove è localizzata all’internodel genoma
Link alle entry didatabase “collegati”
che riguardano ilgene di origine
Annotazione dipolimorfismi
Dove sono i codoni(la parte codificante)
Annotazioni sullafunzione e sulle
interazioni
Ancora link incrociati(questo alla proteina
codificata)
Annotazioni sullafunzione e sulle
interazioni di partidella sequenza
Per Scaricare la SequenzaPer Scaricare la Sequenza
“Cosa” mostrare Salvo o visualizzo? Voglio solo un “pezzo” di sequenza
Il formato FASTAIl formato FASTA
Usato Usato sempresempre per “maneggiare” le per “maneggiare” le sequenzesequenze
La prima riga (La prima riga (headerheader) “dice” di che ) “dice” di che sequenza si tratta, poi c’è la sequenza vera sequenza si tratta, poi c’è la sequenza vera e propriae propria
>NM_002032.2| Homo sapiens ferritin, heavy (FTH1), mRNA ATAAGAGACCACAAGCGACCCGCAGGGCCAGACGTTCTTCGCCGAGAGTCGTCGGGGTTTCCTGCTTCAACAGTGCTTGGACGGAACCCGGCGCTCGTTCCCCACCCCGGCCGGCCGCCCATAGCCAGCCCTCCGTCACCTCTTCACCGCACCCTCGGACTGCCCCAAGGCCCCCGCCGCCGCTCCAGCGCCGCGCAGCCACCGCCGCCGCCGCCGCCTCTCCTTAGTCGCCGCCATGACGACCGCGTCCACCTCGCAGGTGCGCCAGAACTACCACCAGGACTCAGAGGCCGCCATCAACCGCCAGATCAACCTGGAGCTCTACGCCTCCTACGTTTACCTGTCCATGTCTTACTACTTTGACCGCGATGATGTGGCTTTGAAGAACTTTGCCAAATACTTTCTTCACCAATCTCATGA ..............................
EsercizioEsercizio Collegatevi al sito dell’NCBI, recuperate ed esaminate l’entry con
numero di accesso NM_032638. In particolare
Di che tipo di sequenza si tratta? Qual è la descrizione (o definizione) della sequenza fornita da chi ha
depositato la sequenza stessa? Come si chiama il gene corrispondente (ovvero, quale sigla lo
denota)? Su quale cromosoma è localizzato il gene? Quanto sono lunghe 5’UTR, regione codificante e 3’UTR della
sequenza che state esaminando? Quanto è lunga la proteina codificata?
Qual è il numero di accesso (o “Accession number”) della proteina codificata dalla sequenza stessa?