65
Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

  • View
    216

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Introducció a la BioinformàticaRoderic Guigó i Serra

Bioinformàtica, UPF Curs 2009-2010

Page 2: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 3: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Van Leeuwenhoek

In 1676 his credibility was questioned when he sent the Royal Society a copy of his first observations of microscopic single celled organisms. Heretofore, the existence of single celled organisms was entirely unknown … The Royal Society arranged to send an English vicar, as well as a team of respected jurists and doctors to Delft, Holland to determine whether it was in fact Van Leeuwenhoek's ability to observe and reason clearly (wikipedia)

Page 4: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 5: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 6: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 7: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 8: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 9: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

ACTCAGCCCCAGCGGAGGTGAAGGACGTCCTTCCCCAGGAGCCGGTGAGAAGCGCAGTCGGGGGCACGGGGATGAGCTCAGGGGCCTCTAGAAAGATGTAGCTGGGACCTCGGGAAGCCCTGGCCTCCAGGTAGTCTCAGGAGAGCTACTCAGGGTCGGGCTTGGGGAGAGGAGGAGCGGGGGTGAGGCCAGCAGCAGGGGACTGGACCTGGGAAGGGCTGGGCAGCAGAGACGACCCGACCCGCTAGAAGGTGGGGTGGGGAGAGCATGTGGACTAGGAGCTAAGCCACAGCAGGACCCCCACGAGTTGTCACTGTCATTTATCGAGCACCTACTGGGTGTCCCCAGTGTCCTCAGATCTCCATAACTGGGAAGCCAGGGGCAGCGACACGGTAGCTAGCCGTCGATTGGAGAACTTTAAAATGAGGACTGAATTAGCTCATAAATGGAAAACGGCGCTTAAATGTGAGGTTAGAGCTTAGAATGTGAAGGGAGAATGAGGAATGCGAGACTGGGACTGAGATGGAACCGGCGGTGGGGAGGGGGAGGGGGTGTGGAATTTGAACCCCGGGAGAGAAAGATGGAATTTTGGCTATGGAGGCCGACCTGGGGATGGGGAAATAAGAGAAGACCAGGAGGGAGTTAAATAGGGAATGGGTTGGGGGCGGCTTGGTAACTGTTTGTGCTGGGATTAGGCTGTTGCAGATAATGGAGCAAGGCTTGGAAGGCTAACCTGGGGTGGGGCCGGGTTGGGGTCGGGCTGGGGGCGGGAGGAGTCCTCACTGGCGGTTGATTGACAGTTTCTCCTTCCCCAGACTGGCCAATCACAGGCAGGAAGATGAAGGTTCTGTGGGCTGCGTTGCTGGTCACATTCCTGGCAGGTATGGGGCGGGGCTTGCTCGGTTTTCCCCGCTTCTCCCCCTCTCATCCTCACCTCAACCTCCTGGCCCCATTCAAGCACACCCTGGGCCCCCTCTTCTTCTGCTGGTCTGTCCCCTGAGGGGAAAGCCCAGGTCTGAGGCTTCTATGCTGCTTTCTGGCTCAGAACAGCGATTTGACGCTCTGTGAGCCTCGGTTCCTCCCCCGCTTTTTTTTTTTCAGCCAGAGTCTCACTCTGTCGCCCAGGCTGGAGTGCAGTGGCGCAATCTCAGCTCACTGCAAGCTCCGCCTCCCGGGTTCACGCTATTCTCCCGCCTCAGCCTCCCGAGTAGCTGGGACTACAGGCGCCCGCCACCATGCCCGGCTAATTTTTTGTACTTTGAGTAGGGAAGGGGTTTCACTGTATTATCCAGGATGGTCTCTATCTCCTGACCTCGTGATCTGCCCGCCTGGCCTCCCAAAGTGCTGGAATTACAGGCGTGAGCCTCCGCGCCCGGCCTCCCCATCCTTAATATAGGAGTTAGAAGTTTTTGTTTGTTTGTTTTGTTTTGTTTTTGTTTTGTTTTGAGATGAAGTCCCTCTGTCGCCCAGGCTGGAGTGCAGTGGCTCCCAGGCTGGAGTTCAGTGGCTGGATCTCGGCTCACTGCAAGCTCCGCCTCCCAGGTTCACGCCATTCTCCTGCCTCAGCCTCCGGAGTAGCTGGGACTACAGGAACATGCCACCACACCCGACTAACTTTTTTTGTATTTTTAGTAGAGACGGGGTTTCACCATGTTGGCCAGGCTGGTCTGGAACTCCTGACCTCAGGTGATCTGCCTGCTTCAACCTCCCAAAGTGCTGGGATTACAGACGTGGGCCACCGCGCCCGGCTGGGAGTTAAGAGGTTTCTAATGCATTGCATTAGAATACCAGACACGGGACAGCTGTGATCTTTATTCTCCATCACCCCACACAGCCCTGCCTGGGGCACACAAGGACACTCAATACACGCTTTTCGGGCGCGGTGGCTCAAGCTGTAATCCCAGCACTTTGGGAGGCTGAGGCGGGTGGTACATGAGGTCAGGAGATCGAGACCATCCTGGCTAACATGGTGAAACCCCGTCTCTACTAAAAATACAAAAAACTAGCCCGGGCGTGGTGGCGGGCGCCTGTAGTCCCAGCTACTCGGAGGCTGAGGCAGGAGAATGGCGTGAACCTGGGAGGCGGAGCTTGCAGTGAGCCGAGATCGCGCCACTGCACTCCAGCCTGGGTGACACAGCGCGAGACTCCGTCTCAAAAAAAAAAAAAAAAAAAAAAAAAAAAAATACACGCTTTTCCGCTAGGCACGGTGGCTCACCCCTGTAATCCCAGCATTTTGGGAGGCCAAGGTGGGAGGATCACTTGAGCCCAGGAGTTCAACACCAGACTCAGCAACATAGTGAGACTCTCTCTACTAAAAATACAAAAATTAGCCAGGCCTGGTGCCACACACCTGTGGTCCCAGCTACTCAGAAGGCTAAGGCAGGAGGATCGCTTAAGCCCAGAAGGTCAAGGTTGCAGTGAACCACGTTCAGGCCACTGCAGTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTGTAAATAAATAACGCTTTTCAAGTGATTAAACAGACTCCCCCCTCACCCTGCCCACCATGGCTCCAAAGCAGCATTTGTGGAGCACCTTCTGTGTGCCCCTAGGTACTAGCTGCCTGGACGGGGTCAGAAGGAACCTGAACCACCTTCAACTTGTTCCACACAGGATGCCAGGCCAAGGTGGAGCAACCGGTGGAGCCAGAGACAGAACCCGACGTTCGCCAGCAGGCTGAGTGGCAGAGCGGCCAGCCCTGGGAGCTGGCACTGGGTCGCTTTTGGGATTACCTGCGCTGGGTGCAGACACTGTCTGAGCAGGTGCAGGAGGAGCTGCTCAGCCCCCAGGTCACCCAGGAACTGACGTGAGTGTCCCCATCCCGGCCCTTGACCCTCCTGGTGGGCGGCTATACCTCCCCAGGTCCAGGTTTCATTCTGCCCCTGCCACTAAGTCTTGGGGGCCTGGGTCTCTGCTGGTTCTAGCTTCCTCTTCCCATTTCTGACTCCTGGCTTTAGCTCTCTGGAATTCTCTCTCTCAGTTCTGTTTCTCCCTCTTCCCTTCTGACTCAGCCTGTCACACTCGTCCTGGCGCTGTCTCTGTCCTTCACTAGCTCTTTTATATAGAGACAGAGAGATGGGGTCTCACTGTGTTGCCCAGGCTGGTCTTGAACTTCTGGGCTCAAGCGATCCTCCCACCTCGCCTCCCAAAGTGCTGGGAATAGAGACATGAGCCACCTTGCTCGGCCTCCTAGCTCTTTCTTCGTCTCTGCCTCTGCTCTCTGCGTCTGTCTTTGTCTCCTCTCTGCCTCTGTCCCGTTCCTTCTCTCTTGGTTCACTGCCCTTCTGTCTCTCCCTGTTCTCCTTAGGAGACTCTCCTCTCTTCCTTCTCGAGTCTCTCTGGCTGATCCCCATCTCACCCACACCTATCC

Page 10: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

ACTCAGCCCCAGCGGAGGTGAAGGACGTCCTTCCCCAGGAGCCGGTGAGAAGCGCAGTCGGGGGCACGGGGATGAGCTCAGGGGCCTCTAGAAAGATGTAGCTGGGACCTCGGGAAGCCCTGGCCTCCAGGTAGTCTCAGGAGAGCTACTCAGGGTCGGGCTTGGGGAGAGGAGGAGCGGGGGTGAGGCCAGCAGCAGGGGACTGGACCTGGGAAGGGCTGGGCAGCAGAGACGACCCGACCCGCTAGAAGGTGGGGTGGGGAGAGCATGTGGACTAGGAGCTAAGCCACAGCAGGACCCCCACGAGTTGTCACTGTCATTTATCGAGCACCTACTGGGTGTCCCCAGTGTCCTCAGATCTCCATAACTGGGAAGCCAGGGGCAGCGACACGGTAGCTAGCCGTCGATTGGAGAACTTTAAAATGAGGACTGAATTAGCTCATAAATGGAAAACGGCGCTTAAATGTGAGGTTAGAGCTTAGAATGTGAAGGGAGAATGAGGAATGCGAGACTGGGACTGAGATGGAACCGGCGGTGGGGAGGGGGAGGGGGTGTGGAATTTGAACCCCGGGAGAGAAAGATGGAATTTTGGCTATGGAGGCCGACCTGGGGATGGGGAAATAAGAGAAGACCAGGAGGGAGTTAAATAGGGAATGGGTTGGGGGCGGCTTGGTAACTGTTTGTGCTGGGATTAGGCTGTTGCAGATAATGGAGCAAGGCTTGGAAGGCTAACCTGGGGTGGGGCCGGGTTGGGGTCGGGCTGGGGGCGGGAGGAGTCCTCACTGGCGGTTGATTGACAGTTTCTCCTTCCCCAGACTGGCCAATCACAGGCAGGAAGATGAAGGTTCTGTGGGCTGCGTTGCTGGTCACATTCCTGGCAGGTATGGGGCGGGGCTTGCTCGGTTTTCCCCGCTTCTCCCCCTCTCATCCTCACCTCAACCTCCTGGCCCCATTCAAGCACACCCTGGGCCCCCTCTTCTTCTGCTGGTCTGTCCCCTGAGGGGAAAGCCCAGGTCTGAGGCTTCTATGCTGCTTTCTGGCTCAGAACAGCGATTTGACGCTCTGTGAGCCTCGGTTCCTCCCCCGCTTTTTTTTTTTCAGCCAGAGTCTCACTCTGTCGCCCAGGCTGGAGTGCAGTGGCGCAATCTCAGCTCACTGCAAGCTCCGCCTCCCGGGTTCACGCTATTCTCCCGCCTCAGCCTCCCGAGTAGCTGGGACTACAGGCGCCCGCCACCATGCCCGGCTAATTTTTTGTACTTTGAGTAGGGAAGGGGTTTCACTGTATTATCCAGGATGGTCTCTATCTCCTGACCTCGTGATCTGCCCGCCTGGCCTCCCAAAGTGCTGGAATTACAGGCGTGAGCCTCCGCGCCCGGCCTCCCCATCCTTAATATAGGAGTTAGAAGTTTTTGTTTGTTTGTTTTGTTTTGTTTTTGTTTTGTTTTGAGATGAAGTCCCTCTGTCGCCCAGGCTGGAGTGCAGTGGCTCCCAGGCTGGAGTTCAGTGGCTGGATCTCGGCTCACTGCAAGCTCCGCCTCCCAGGTTCACGCCATTCTCCTGCCTCAGCCTCCGGAGTAGCTGGGACTACAGGAACATGCCACCACACCCGACTAACTTTTTTTGTATTTTTAGTAGAGACGGGGTTTCACCATGTTGGCCAGGCTGGTCTGGAACTCCTGACCTCAGGTGATCTGCCTGCTTCAACCTCCCAAAGTGCTGGGATTACAGACGTGGGCCACCGCGCCCGGCTGGGAGTTAAGAGGTTTCTAATGCATTGCATTAGAATACCAGACACGGGACAGCTGTGATCTTTATTCTCCATCACCCCACACAGCCCTGCCTGGGGCACACAAGGACACTCAATACACGCTTTTCGGGCGCGGTGGCTCAAGCTGTAATCCCAGCACTTTGGGAGGCTGAGGCGGGTGGTACATGAGGTCAGGAGATCGAGACCATCCTGGCTAACATGGTGAAACCCCGTCTCTACTAAAAATACAAAAAACTAGCCCGGGCGTGGTGGCGGGCGCCTGTAGTCCCAGCTACTCGGAGGCTGAGGCAGGAGAATGGCGTGAACCTGGGAGGCGGAGCTTGCAGTGAGCCGAGATCGCGCCACTGCACTCCAGCCTGGGTGACACAGCGCGAGACTCCGTCTCAAAAAAAAAAAAAAAAAAAAAAAAAAAAAATACACGCTTTTCCGCTAGGCACGGTGGCTCACCCCTGTAATCCCAGCATTTTGGGAGGCCAAGGTGGGAGGATCACTTGAGCCCAGGAGTTCAACACCAGACTCAGCAACATAGTGAGACTCTCTCTACTAAAAATACAAAAATTAGCCAGGCCTGGTGCCACACACCTGTGGTCCCAGCTACTCAGAAGGCTAAGGCAGGAGGATCGCTTAAGCCCAGAAGGTCAAGGTTGCAGTGAACCACGTTCAGGCCACTGCAGTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTGTAAATAAATAACGCTTTTCAAGTGATTAAACAGACTCCCCCCTCACCCTGCCCACCATGGCTCCAAAGCAGCATTTGTGGAGCACCTTCTGTGTGCCCCTAGGTACTAGCTGCCTGGACGGGGTCAGAAGGAACCTGAACCACCTTCAACTTGTTCCACACAGGATGCCAGGCCAAGGTGGAGCAACCGGTGGAGCCAGAGACAGAACCCGACGTTCGCCAGCAGGCTGAGTGGCAGAGCGGCCAGCCCTGGGAGCTGGCACTGGGTCGCTTTTGGGATTACCTGCGCTGGGTGCAGACACTGTCTGAGCAGGTGCAGGAGGAGCTGCTCAGCCCCCAGGTCACCCAGGAACTGACGTGAGTGTCCCCATCCCGGCCCTTGACCCTCCTGGTGGGCGGCTATACCTCCCCAGGTCCAGGTTTCATTCTGCCCCTGCCACTAAGTCTTGGGGGCCTGGGTCTCTGCTGGTTCTAGCTTCCTCTTCCCATTTCTGACTCCTGGCTTTAGCTCTCTGGAATTCTCTCTCTCAGTTCTGTTTCTCCCTCTTCCCTTCTGACTCAGCCTGTCACACTCGTCCTGGCGCTGTCTCTGTCCTTCACTAGCTCTTTTATATAGAGACAGAGAGATGGGGTCTCACTGTGTTGCCCAGGCTGGTCTTGAACTTCTGGGCTCAAGCGATCCTCCCACCTCGCCTCCCAAAGTGCTGGGAATAGAGACATGAGCCACCTTGCTCGGCCTCCTAGCTCTTTCTTCGTCTCTGCCTCTGCTCTCTGCGTCTGTCTTTGTCTCCTCTCTGCCTCTGTCCCGTTCCTTCTCTCTTGGTTCACTGCCCTTCTGTCTCTCCCTGTTCTCCTTAGGAGACTCTCCTCTCTTCCTTCTCGAGTCTCTCTGGCTGATCCCCATCTCACCCACACCTATCC

Page 11: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 12: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 13: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

ACTCAGCCCCAGCGGAGGTGAAGGACGTCCTTCCCCAGGAGCCGGTGAGAAGCGCAGTCGGGGGCACGGGGATGAGCTCAGGGGCCTCTAGAAAGATGTAGCTGGGACCTCGGGAAGCCCTGGCCTCCAGGTAGTCTCAGGAGAGCTACTCAGGGTCGGGCTTGGGGAGAGGAGGAGCGGGGGTGAGGCCAGCAGCAGGGGACTGGACCTGGGAAGGGCTGGGCAGCAGAGACGACCCGACCCGCTAGAAGGTGGGGTGGGGAGAGCATGTGGACTAGGAGCTAAGCCACAGCAGGACCCCCACGAGTTGTCACTGTCATTTATCGAGCACCTACTGGGTGTCCCCAGTGTCCTCAGATCTCCATAACTGGGAAGCCAGGGGCAGCGACACGGTAGCTAGCCGTCGATTGGAGAACTTTAAAATGAGGACTGAATTAGCTCATAAATGGAAAACGGCGCTTAAATGTGAGGTTAGAGCTTAGAATGTGAAGGGAGAATGAGGAATGCGAGACTGGGACTGAGATGGAACCGGCGGTGGGGAGGGGGAGGGGGTGTGGAATTTGAACCCCGGGAGAGAAAGATGGAATTTTGGCTATGGAGGCCGACCTGGGGATGGGGAAATAAGAGAAGACCAGGAGGGAGTTAAATAGGGAATGGGTTGGGGGCGGCTTGGTAACTGTTTGTGCTGGGATTAGGCTGTTGCAGATAATGGAGCAAGGCTTGGAAGGCTAACCTGGGGTGGGGCCGGGTTGGGGTCGGGCTGGGGGCGGGAGGAGTCCTCACTGGCGGTTGATTGACAGTTTCTCCTTCCCCAGACTGGCCAATCACAGGCAGGAAGATGAAGGTTCTGTGGGCTGCGTTGCTGGTCACATTCCTGGCAGGTATGGGGCGGGGCTTGCTCGGTTTTCCCCGCTTCTCCCCCTCTCATCCTCACCTCAACCTCCTGGCCCCATTCAAGCACACCCTGGGCCCCCTCTTCTTCTGCTGGTCTGTCCCCTGAGGGGAAAGCCCAGGTCTGAGGCTTCTATGCTGCTTTCTGGCTCAGAACAGCGATTTGACGCTCTGTGAGCCTCGGTTCCTCCCCCGCTTTTTTTTTTTCAGCCAGAGTCTCACTCTGTCGCCCAGGCTGGAGTGCAGTGGCGCAATCTCAGCTCACTGCAAGCTCCGCCTCCCGGGTTCACGCTATTCTCCCGCCTCAGCCTCCCGAGTAGCTGGGACTACAGGCGCCCGCCACCATGCCCGGCTAATTTTTTGTACTTTGAGTAGGGAAGGGGTTTCACTGTATTATCCAGGATGGTCTCTATCTCCTGACCTCGTGATCTGCCCGCCTGGCCTCCCAAAGTGCTGGAATTACAGGCGTGAGCCTCCGCGCCCGGCCTCCCCATCCTTAATATAGGAGTTAGAAGTTTTTGTTTGTTTGTTTTGTTTTGTTTTTGTTTTGTTTTGAGATGAAGTCCCTCTGTCGCCCAGGCTGGAGTGCAGTGGCTCCCAGGCTGGAGTTCAGTGGCTGGATCTCGGCTCACTGCAAGCTCCGCCTCCCAGGTTCACGCCATTCTCCTGCCTCAGCCTCCGGAGTAGCTGGGACTACAGGAACATGCCACCACACCCGACTAACTTTTTTTGTATTTTTAGTAGAGACGGGGTTTCACCATGTTGGCCAGGCTGGTCTGGAACTCCTGACCTCAGGTGATCTGCCTGCTTCAACCTCCCAAAGTGCTGGGATTACAGACGTGGGCCACCGCGCCCGGCTGGGAGTTAAGAGGTTTCTAATGCATTGCATTAGAATACCAGACACGGGACAGCTGTGATCTTTATTCTCCATCACCCCACACAGCCCTGCCTGGGGCACACAAGGACACTCAATACACGCTTTTCGGGCGCGGTGGCTCAAGCTGTAATCCCAGCACTTTGGGAGGCTGAGGCGGGTGGTACATGAGGTCAGGAGATCGAGACCATCCTGGCTAACATGGTGAAACCCCGTCTCTACTAAAAATACAAAAAACTAGCCCGGGCGTGGTGGCGGGCGCCTGTAGTCCCAGCTACTCGGAGGCTGAGGCAGGAGAATGGCGTGAACCTGGGAGGCGGAGCTTGCAGTGAGCCGAGATCGCGCCACTGCACTCCAGCCTGGGTGACACAGCGCGAGACTCCGTCTCAAAAAAAAAAAAAAAAAAAAAAAAAAAAAATACACGCTTTTCCGCTAGGCACGGTGGCTCACCCCTGTAATCCCAGCATTTTGGGAGGCCAAGGTGGGAGGATCACTTGAGCCCAGGAGTTCAACACCAGACTCAGCAACATAGTGAGACTCTCTCTACTAAAAATACAAAAATTAGCCAGGCCTGGTGCCACACACCTGTGGTCCCAGCTACTCAGAAGGCTAAGGCAGGAGGATCGCTTAAGCCCAGAAGGTCAAGGTTGCAGTGAACCACGTTCAGGCCACTGCAGTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTGTAAATAAATAACGCTTTTCAAGTGATTAAACAGACTCCCCCCTCACCCTGCCCACCATGGCTCCAAAGCAGCATTTGTGGAGCACCTTCTGTGTGCCCCTAGGTACTAGCTGCCTGGACGGGGTCAGAAGGAACCTGAACCACCTTCAACTTGTTCCACACAGGATGCCAGGCCAAGGTGGAGCAACCGGTGGAGCCAGAGACAGAACCCGACGTTCGCCAGCAGGCTGAGTGGCAGAGCGGCCAGCCCTGGGAGCTGGCACTGGGTCGCTTTTGGGATTACCTGCGCTGGGTGCAGACACTGTCTGAGCAGGTGCAGGAGGAGCTGCTCAGCCCCCAGGTCACCCAGGAACTGACGTGAGTGTCCCCATCCCGGCCCTTGACCCTCCTGGTGGGCGGCTATACCTCCCCAGGTCCAGGTTTCATTCTGCCCCTGCCACTAAGTCTTGGGGGCCTGGGTCTCTGCTGGTTCTAGCTTCCTCTTCCCATTTCTGACTCCTGGCTTTAGCTCTCTGGAATTCTCTCTCTCAGTTCTGTTTCTCCCTCTTCCCTTCTGACTCAGCCTGTCACACTCGTCCTGGCGCTGTCTCTGTCCTTCACTAGCTCTTTTATATAGAGACAGAGAGATGGGGTCTCACTGTGTTGCCCAGGCTGGTCTTGAACTTCTGGGCTCAAGCGATCCTCCCACCTCGCCTCCCAAAGTGCTGGGAATAGAGACATGAGCCACCTTGCTCGGCCTCCTAGCTCTTTCTTCGTCTCTGCCTCTGCTCTCTGCGTCTGTCTTTGTCTCCTCTCTGCCTCTGTCCCGTTCCTTCTCTCTTGGTTCACTGCCCTTCTGTCTCTCCCTGTTCTCCTTAGGAGACTCTCCTCTCTTCCTTCTCGAGTCTCTCTGGCTGATCCCCATCTCACCCACACCTATCC

Page 14: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 15: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

1990,el projecte del genoma humà

Page 16: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 17: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 18: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

La matèria cromosòmica és “un cristall aperiòdic”, constituït per la successió d'un nombre petit d'elements isomèrics*, la seqüència concreta dels quals és la responsable de la seva funcionalitat.

(*) “the number of atoms in such a structure need not to be very large to produce an almost unlimited number of possible arrangements. For illustration, think of the Morse code…”

La matèria cromosòmica és “un cristall aperiòdic”, constituït per la successió d'un nombre petit d'elements isomèrics*, la seqüència concreta dels quals és la responsable de la seva funcionalitat.

(*) “the number of atoms in such a structure need not to be very large to produce an almost unlimited number of possible arrangements. For illustration, think of the Morse code…”

1943: Schroëdinger, “What is life?”

Page 19: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

ENIAC

Finals dels anys 40: primers ordinadors digitals

Page 20: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 21: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

MALWTRLRPLLALLALWPPPPARAFVNQHLCGSHLVEALYLVCGERGFFYTPKARREVEGPQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSLYQLENYCN

Amino acid sequence of the bovine insuline

Page 22: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

http://www.ict-science-to-society.org/

Principis dels anys 60:

desxiframent del codi genètic

Page 23: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

GAGTTTTATCGCTTCCATGACGCAGAAGTTAACACTTTCGGATATTTCTGATGAGTCGAAAAATTATCTTGATAAAGCAGGAATTACTACTGCTTGTTTACGAATTAAATCGAAGTGGACTGCTGGCGGAAAATGAGAAAATTCGACCTATCCTTGCGCAGCTCGAGAAGCTCTTACTTTGCGACCTTTCGCCATCAACTAACGATTCTGTCAAAAACTGACGCGTTGGATGAGGAGAAGTGGCTTAATATGCTTGGCACGTTCGTCAAGGACTGGTTTAGATATGAGTCACATTTTGTTCATGGTAGAGATTCTCTTGT

MALWTRLRPLLALLALWPPPPARAFVNQHLCGSHLVEALYLVCGERGFFYTPKARREVEGPQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSLYQLENYCN

Page 24: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

1957: invenció del llenguatge de programació FORTRAN

Page 25: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Els ordinadors esdevenen més petits, i, per tant, mes econòmics i més ràpids.

Durant els anys 60 els ordinadors s’introdueix en bancs, institucions financeres, universitats i centres de recerca.

Anys 60: transistors i circuits integrats

Page 26: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 27: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 28: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Alineament i comparació de seqüències

Page 29: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

70’s: Seqüenciació del DNA. Sanger. Maxam and Gilbert

A finals dels anys 60, centenars de proteïnes havien ja estat seqüenciades, pero la seqüenciació d’àcids nucleics romania elusiva

Sanger (Cambridge)Maxam and Gilbert (Harvard)

Page 30: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Anys 70: Internet. Advanced Research Projects Agency

Page 31: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

gagttttatcgcttccatgacgcagaagttaacactttcggatatttctgatgagtcgaaaaattatcttgataaagcaggaattactactgcttgtttacgaattaaatcgaagtggactgctggcggaaaatgagaaaattcgacctatccttgcgcagctcgagaagctcttactttgcgacctttcgccatcaactaacgattctgtcaaaaactgacgcgttggatgaggagaagtggcttaatatgcttggcacgttcgtcaaggactggtttagatatgagtcacattttgttcatggtagagattctcttgttgacattttaaaagagcgtggattactatctgagtccgatgctgttcaaccactaataggtaagaaatcatgagtcaagttactgaacaatccgtacgtttccagaccgctttggcctctattaagctcattcaggcttctgccgttttggatttaaccgaagatgatttcgattttctgacgagtaacaaagtttggattgctactgaccgctctcgtgctcgtcgctgcgttgaggcttgcgtttatggtacgctggactttgtgggataccctcgctttcctgctcctgttgagtttattgctgccgtcattgcttattatgttcatcccgtcaacattcaaacggcctgtctcatcatggaaggcgctgaatttacggaaaacattattaatggcgtcgagcgtccggttaaagccgctgaattgttcgcgtttaccttgcgtgtacgcgcaggaaacactgacgttcttactgacgcagaagaaaacgtgcgtcaaaaattacgtgcggaaggagtgatgtaatgtctaaaggtaaaaaacgttctggcgctcgccctggtcgtccgcagccgttgcgaggtactaaaggcaagcgtaaaggcgctcgtctttggtatgtaggtggtcaacaattttaattgcaggggcttcggccccttacttgaggataaattatgtctaatattcaaactggcgccgagcgtatgccgcatgacctttcccatcttggcttccttgctggtcagattggtcgtcttattaccatttcaactactccggttatcgctggcgactccttcgagatggacgccgttggcgctctccgtctttctccattgcgtcgtggccttgctattgactctactgtagacatttttactttttatgtccctcatcgtcacgtttatggtgaacagtggattaagttcatgaaggatggtgttaatgccactcctctcccgactgttaacactactggttatattgaccatgccgcttttcttggcacgattaaccctgataccaataaaatccctaagcatttgtttcagggttatttgaatatctataacaactattttaaagcgccgtggatgcctgaccgtaccgaggctaaccctaatgagcttaatcaagatgatgctcgttatggtttccgttgctgccatctcaaaaacatttggactgctccgcttcctcctgagactgagctttctcgccaaatgacgacttctaccacatctattgacattatgggtctgcaagctgcttatgctaatttgcatactgaccaagaacgtgattacttcatgcagcgttaccatgatgttatttcttcatttggaggtaaaacctcttatgacgctgacaaccgtcctttacttgtcatgcgctctaatctctgggcatctggctatgatgttgatggaactgaccaaacgtcgttaggccagttttctggtcgtgttcaacagacctataaacattctgtgccgcgtttctttgttcctgagcatggcactatgtttactcttgcgcttgttcgttttccgcctactgcgactaaagagattcagtaccttaacgctaaaggtgctttgacttataccgatattgctggcgaccctgttttgtatggcaacttgccgccgcgtgaaatttctatgaaggatgttttccgttctggtgattcgtctaagaagtttaagattgctgagggtcagtggtatcgttatgcgccttcgtatgtttctcctgcttatcaccttcttgaaggcttcccattcattcaggaaccgccttctggtgatttgcaagaacgcgtacttattcgccaccatgattatgaccagtgtttccagtccgttcagttgttgcagtggaatagtcaggttaaatttaatgtgaccgtttatcgcaatctgccgaccactcgcgattcaatcatgacttcgtgataaaagattgagtgtgaggttataacgccgaagcggtaaaaattttaatttttgccgctgaggggttgaccaagcgaagcgcggtaggttttctgcttaggagtttaatcatgtttcagacttttatttctcgccataattcaaactttttttctgataagctggttctcacttctgttactccagcttcttcggcacctgttttacagacacctaaagctacatcgtcaacgttatattttgatagtttgacggttaatgctggtaatggtggttttcttcattgcattcagatggatacatctgtcaacgccgctaatcaggttgtttctgttggtgctgatattgcttttgatgccgaccctaaattttttgcctgtttggttcgctttgagtcttcttcggttccgactaccctcccgactgcctatgatgtttatcctttgaatggtcgccatgatggtggttattataccgtcaaggactgtgtgactattgacgtccttccccgtacgccgggcaataacgtttatgttggtttcatggtttggtctaactttaccgctactaaatgccgcggattggtttcgctgaatcaggttattaaagagattatttgtctccagccacttaagtgaggtgatttatgtttggtgctattgctggcggtattgcttctgctcttgctggtggcgccatgtctaaattgtttggaggcggtcaaaaagccgcctccggtggcattcaaggtgatgtgcttgctaccgataacaatactgtaggcatgggtgatgctggtattaaatctgccattcaaggctctaatgttcctaaccctgatgaggccgcccctagttttgtttctggtgctatggctaaagctggtaaaggacttcttgaaggtacgttgcaggctggcacttctgccgtttctgataagttgcttgatttggttggacttggtggcaagtctgccgctgataaaggaaaggatactcgtgattatcttgctgctgcatttcctgagcttaatgcttgggagcgtgctggtgctgatgcttcctctgctggtatggttgacgccggatttgagaatcaaaaagagcttactaaaatgcaactggacaatcagaaagagattgccgagatgcaaaatgagactcaaaaagagattgctggcattcagtcggcgacttcacgccagaatacgaaagaccaggtatatgcacaaaatgagatgcttgcttatcaacagaaggagtctactgctcgcgttgcgtctattatggaaaacaccaatcttcccaagcaacagcaggtttccgagattatgcgccaaatgcttactcaagctcaaacggctggtcagtattttaccaatgaccaaatcaaagaaatgactcgcaaggttagtgctgaggttgacttagttcatcagcaaacgcagaatcagcggtatggctcttctcatattggcgctactgcaaaggatatttctaatgtcgtcactgatgctgcttctggtgtggttgatatttttcatggtattgataaagctgttgccgatacttggaacaatttctggaaagacggtaaagctgatggtattggctctaatttgtctaggaaataaccgtcaggattgacaccctcccaattgtatgttttcatgcctccaaatcttggaggcttttttatggttcgttcttattacccttctgaatgtcacgctgattattttgactttgag

1977: genoma del virus X174

Page 32: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

1982: les primeres bases de dades electròniques

Page 33: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Search of the Platelet Derived Growth Factor sequence

Doolittle: relació entre els oncogens i els factors de creixement

Page 34: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

El Programa del Genoma Humà produirà grans quantitats de dades complexes...

El desenvolupament de projectes informàtics en algoritmes, programari i bases de dades és crucial per a l’acumulació i la intrepretació d’aquestes dades de manera robusta i automatitzada en el centre de seqüenciació genòmica...

Els sistemes computacionals tenen un paper essencial en tots els aspectes de la recerca genòmica, desde l’adquisició de les dades fins a la seva anàlisi i manipulació. Sense computadors potentsi sistemes apropiats pel tractament de les dades, la recerca genòmica és impossible.

DOE-NIH, 1989

1990,el projecte del genoma humà

Page 35: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

This proposal concerns the management of general information about accelerators and experiments at CERN. It discusses the problems of loss of information about complex evolving systems and derives a solution based on a distributed hypertext system (Tim Berners-Lee)

1990:WWW al CERN

Page 36: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Human Genome Project Milestones

Page 37: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

2001: la culminació del projecte

Page 38: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 39: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

bioinformàtica

Articles a Medline amb la paraula clau Bioinformatics.

any # articlesfins el 1990 0

Page 40: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

bioinformàtica

Articles a Medline amb la paraula clau Bioinformatics.

any # articlesfins el 1990 01990-1994 15

Page 41: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

bioinformàtica

Articles a Medline amb la paraula clau Bioinformatics.

any # articlesfins el 1990 01990-1994 151995-1999 823

Page 42: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

bioinformàtica

Articles a Medline amb la paraula clau Bioinformatics.

any # articlesfins el 1990 01990-1994 151995-1999 8232000-2004 7827

Page 43: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

bioinformàtica

Articles a Medline amb la paraula clau Bioinformatics.

any # articlesfins el 1990 01990-1994 151995-1999 8232000-2004 78272005-2008 18822

Page 44: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

la llei de Moore

Page 45: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 46: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 47: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

El genoma humà: 3,000 millons de nucleòtids

• 12-15 anys

• cinc grans centres de seqüenciació

• centenars de científics de tot el món

• 3.000 milions de dolars

Page 48: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

una nova generació de màquines de

seqüenciació genòmica

El genoma humà: 3,000 millons de nucleòtids

12-15 anys, cinc grans centres de seqüenciació, centenars de científics de tot el món

Solexa : 1,000 millons de nucleòtids en un sol dia

Page 49: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 50: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 51: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 52: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 53: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010
Page 54: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

April 18, 2023 UPF, Barcelona, Gener 2009 54

D’aquí a cinc anys, disposarem

del genoma individual de cadascú de nosaltres

Page 55: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Sequencing challenges for bioinformatics

• Sequencing to survey dynamics of ecosystems• Metagenomes

– Within individual ecosystems

• Other species genomes• Reference Human Genome• Individual genomes• Individual meta-genomes• Within individual genomic diversity• Sequencing as the read-out of experiments

– Chip-Seq and nucleosome positioning• RNA sequencing as a proxy to the cell’s

phenotype

Page 56: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Sequencing challenges for bioinformatics

• Sequencing to survey dynamics of ecosystems• Metagenomes

– Within individual ecosystems

• Other species genomes• Reference Human Genome• Individual genomes• Individual meta-genomes• Within individual genomic diversity• Sequencing as the read-out of experiments

– Chip-Seq and nucleosome positioning• RNA sequencing as a proxy to the cell’s

phenotype

Page 57: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Sequencing challenges for bioinformatics

• Sequencing to survey dynamics of ecosystems• Metagenomes

– Within individual ecosystems

• Other species genomes• Reference Human Genome• Individual genomes• Individual meta-genomes• Within individual genomic diversity• Sequencing as the read-out of experiments

– Chip-Seq and nucleosome positioning• RNA sequencing as a proxy to the cell’s

phenotype

Page 58: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Sequencing challenges for bioinformatics

• Sequencing to survey dynamics of ecosystems• Metagenomes

– Ecosystems (enviromental, individual)

• Other species genomes• Reference Human Genome• Individual genomes• Individual meta-genomes• Within individual genomic diversity• Sequencing as the read-out of experiments

– Chip-Seq and nucleosome positioning• RNA sequencing as a proxy to the cell’s

phenotype

Page 59: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Sequencing challenges for bioinformatics

• Sequencing to survey dynamics of ecosystems• Metagenomes

– Ecosystems (enviromental, individual)

• Other species genomes• Reference Human Genome• Individual genomes• Individual meta-genomes• Within individual genomic diversity• Sequencing as the read-out of experiments

– Chip-Seq and nucleosome positioning• RNA sequencing as a proxy to the cell’s

phenotype

Page 60: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Sequencing challenges for bioinformatics

• Sequencing to survey dynamics of ecosystems• Metagenomes

– Ecosystems (enviromental, individual)

• Other species genomes• Reference Human Genome• Individual genomes• Individual meta-genomes• Within individual genomic diversity• Sequencing as the read-out of experiments

– Chip-Seq and nucleosome positioning• RNA sequencing as a proxy to the cell’s

phenotype

Page 61: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Sequencing challenges for bioinformatics

• Sequencing to survey dynamics of ecosystems• Metagenomes

– Ecosystems (enviromental, individual)

• Other species genomes• Reference Human Genome• Individual genomes• Individual meta-genomes• Within individual genomic diversity• Sequencing as the read-out of experiments

– Chip-Seq, nucleosome positioning, …• RNA sequencing as a proxy to the cell’s

phenotype

Page 62: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Sequencing challenges for bioinformatics

• Sequencing to survey dynamics of ecosystems• Metagenomes

– Ecosystems (enviromental, individual)

• Other species genomes• Reference Human Genome• Individual genomes• Individual meta-genomes• Within individual genomic diversity• Sequencing as the read-out of experiments

– Chip-Seq, nucleosome positioning, …• RNA sequencing as a proxy to the cell’s

phenotype

Page 63: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

Sequencing challenges for bioinformatics

• Sequencing to survey dynamics of ecosystems• Metagenomes

– Ecosystems (enviromental, individual)

• Other species genomes• Reference Human Genome• Individual genomes• Individual meta-genomes• Within individual genomic diversity• Sequencing as the read-out of experiments

– Chip-Seq, nucleosome positioning, …• RNA sequencing as a proxy to the cell’s

phenotype

Page 64: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

dues idees • La biologia, una disciplina en la que l’esforç ha estat

tradicionalment dedicat a l’obtenció de les dades, ha esdevingut en poc temps una disciplina en la que les dades s’obtenen de manera gairebé automàtica, i l’esforç s’ha desplaçat cap a l’anàlisi de les dades.

• La Bioinformàtica més que un altre (sub) disciplina de la Biologia (com ara la bioquímica, la genètica, la botànica, …) és una disciplinea que permea tota la Biologia; és una manera de fer Biologia; en molts casos, la única manera de fer Biologia.

• Molts processos biològics poden ser entesos com a computacions gairebe sensu stricto.

Page 65: Introducció a la Bioinformàtica Roderic Guigó i Serra Bioinformàtica, UPF Curs 2009-2010

bioinformatics 14,100,000

chemoinformatics 226,000

astroinformatics 195

neuroinformatics 364,000

socioinformatics 610

geoinformatics 506,000

meteoinformatics 48

econoinformatics 441

ecoinformatics 160,000

bioinformàtica

Google search: X-informatics (11 juny, 2007)