45
Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Embed Size (px)

Citation preview

Page 1: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Le séquençage à grande échelle au Genoscope

Stratégies actuelles et perspectives

P. Wincker, Séminaire INRA, Paris, 06.11.07

Page 2: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

• Status: Public Institute• Mission : provide high-throughput sequencing data

to the French Academic community , and carry out in-house genomic projects

• Creation 1997• Part of the CEA Institut de Génomique since 05/2007

Page 3: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Procedures on Scientific Projects

• in house : evaluated by the Scientific Committee

• collaborative: - proposed by external labs (annual call for

proposals) - evaluated by the Scientific Committee - supported by Genoscope's

budget

• shared cost:- consumables and labor supported by applicant

- other costs on Genoscope's budget- approval by Scientific committee >100

000 reads

• paid services

Page 4: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Répartition de l'activité de séquençage depuis 1998Volume total 41 681 315

Payed Services3%

Shared Costs5%

Devpt & QC2%

Total in house27%

Collaboration63%

Breakdown of sequencing activity since 1998Total reads 41 681 315

Page 5: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Répartition de l'activité de séquençage en 2006Volume total 12138976

Projets propres 3,4%

Dévelopement & QC 1,7%

Coûts paratgés 1,4%

Travaux payants 1,4%

Collaborations 92,2%

Breakdown of sequencing activity in 2006Total reads 12 138 976

Coûts partagés 1,4%

Page 6: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Projets retenus : 188 AP-HP1,78%

CEA2,54%

CIRAD4,07%

CNRS28,50%

ENS0,51%

IFREMER0,76%

INA-PG0,76%

INRA16,28%

INSERM5,85%

IRD2,04%

Institut Pasteur5,85%

From abroad10,43%

MNHN1,27%

University19,34%

Successful applications since 1998Total 188

Page 7: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Genomes

57,9%

SAGE

1,3%Genome regions

14,2%

STS/STC

2,8%

rDNA

0,6%Sequence

variants

0,9%

Metagenomes

8,9%

Miscellaneous

3,3%

EST/cDNA

10,1%

Sequence categories

Page 8: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Agriculture9%

Biology32%

Biodiversity44%

Medical15%

Genomes (finished and in progress)

Page 9: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Nombre annuel total de lectures (1998-2006)

0

2000000

4000000

6000000

8000000

10000000

12000000

14000000

1998 1999 2000 2001 2002 2003 2004 2005 2006

Page 10: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

L’organisation du séquençageau Genoscope

Page 11: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Personnel (01/01/06) •Mapping•Libraries, subcloning•Sequencing + template prepping•Finishing•Development•Research projects•R and D•Robotics•Informatics•Bio-informatics•QC and QA•Infrastructure (Kitchen, building etc.)•TOTAL (FTE)

8

11

18

15

4

27

8

3

21

24

2

9

150

11

7

43

9

5

26

0

3

6

9

5

16

140

2001

Page 12: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Projet

Séquençage Sanger, 454 (2007), Solexa (2008)

Assemblage, finition, clustering

Annotation procaryote(MAGE)

Annotation eucaryote(GAZE)

Niveaux d’accès aux capacités du Genoscope par Appel d’Offres

Page 13: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Sélection des projets

• Appel d’offres évalué annuellement par un conseil scientifique externe (1998-2007)

• A partir de 2008 :

– Appel d’offres (GIS Ibisa)– Projets ANR (Programme Génomique)

Page 14: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Sequencing equipment total capacity

ABI 3730 19 (30 M bases/day)

454/GSFLX 1 (100 M bases/day)

Page 15: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Impact des nouvelles technologies de séquençage

Page 16: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Evaluation des NTSs au Genoscope

• Qualité : des lectures et des assemblages

• Applications : fonction de la taille des génomes, complémentarité aux autres technologies

• Impact sur l’obtention d’une séquence «finie »

Page 17: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Exemple du séquenceur Roche / 454

Page 18: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07
Page 19: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07
Page 20: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07
Page 21: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07
Page 22: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07
Page 23: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

454 data (flowgram)

Sanger data (chromatogram)

Page 24: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Evaluation de la qualité des lectures :Mapping des lectures 454 sur la séquence finie d’Acinetobacter baylyi

478.961 lectures mappées (soit 99,55%)

98.200.952 nt alignés contenant 1.451.396 erreurs (soit 1,48% d’erreurs)

Avec Q ≥ 20, 790.487 erreurs (8.10-3) et Q ≥ 40, 343520 erreurs (3.10-3)

Sur les 172.668 lectures mappées à 100%, 60.550 sont sans erreurs (35%)

Page 25: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Position des erreurs dans les lectures 454

Page 26: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Position des erreurs par type dans les lectures 454

Page 27: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Evaluation des assemblages 454

• Deux types d’assemblage proposés :

– De novo

– Dirigé (en utilisant la séquence d’un génome très proche)

Page 28: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Taille du N50 à différentes profondeurs (assemblage de novo)

Page 29: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Taille du N50 à différentes profondeurs (de novo vs dirigé)

Page 30: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Erreurs concentrées dans les régions homopolymériques

• Fonction de la taille de l’homopolymère

• Pour M. agalactiae, couverture de 30x– si (N)n avec n<5, taux d’erreur ~1%

– si (N)n avec n<9, taux d’erreur ~5%

Le taux d’erreur dépend de la fréquence des régions homopolymériques Ce n’est pas une valeur absolue

Page 31: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Evaluation des NTSs au Genoscope

• Qualité : des lectures et des assemblages

• Applications : fonction de la taille des génomes, complémentarité aux autres technologies

• Impact sur l’obtention d’une séquence «finie »

Page 32: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

De l’assemblage 454 au génome fini

• Points positifs :– Pas de clonage présence des régions incompatibles

avec E. coli– Quasi-insensibilité aux biais compositionnels– Vitesse : une semaine de l’ADN à la séquence

• Points négatifs:– Pas de liens entre séquences pas de

supercontigage– Taux d’erreur élevé dans les homopolymères– pas d’assemblage des séquences répétées

Page 33: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Microbial Genome Sequencing

• Until December 2006 : 12x coverage with Sanger technology, 3 libraries (insert sizes 3 kb, 10 kb, 40 kb)

• From january 2007 : 4x Sanger coverage, single library (10 or 40 kb) + 20x coverage GS20 reads– Assembly with Arachne (Broad Institute) using Sanger reads and

Newbler contigs

• From June 2007, 4x Sanger coverage, single library (10 or 40 kb) , + 15x coverage GSFLX reads– Assembly with Arachne (Broad Institute) using Sanger reads and

Newbler contigs or with Newbler2 using Sanger reads and GSFLX reads

Page 34: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Le séquenceur Solexa / illumina 1G

Amplification directe sur lames (pas de PCR en émulsion)Séquençage par terminateurs reversibles

Longueurs de lecture : 25-35 basesDébit : 40 000 000 lectures / run

Page 35: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Applications du Solexa/Illumina 1G (ou ABI Solid)

• SNP detection

• ChIp-Seq

• Quantitative / qualitative transcriptomics

• small RNAs

• …

Page 36: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Méthodes pour le re-séquençage : environnement informatique

• Objectif : aligner chaque lecture à une localisation unique (si elle existe) sur le génome de référence

• Exemple si utilisation de blast :• 1 lecture contre 140Mb (chr9 humain) ~ 18s/CPU• 1 lecture contre 3Gb ~ 386s/CPU• 1Gb lectures Solexa contre 3Gb ~ 490 années/CPU• 20x de lectures Solexa contre 3 Gb ~ 44.000 années/CPU

• Nécessité d’utiliser des méthodes différentes qui tiennent compte de la petite taille des lectures :

• phageAlign : compare chaque lecture avec les k-mers génomique (en triant les k-mers et en exploitant les parties communes des préfixes pour réduire le travail)• ELAND : place les lectures dans une structure de données et les aligne toutes en même temps

Page 37: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Perspectives d’utilisation Solexa / Illumina 1G

• Small RNAs, tags … : avantage de coût par rapport au 454/Roche

• Séquençage de génomes : attente du développement d’assembleurs adaptés

• Amélioration de la qualité des séquences 454/Roche assemblés

Page 38: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Notions de coût par base (ordre de grandeur)

Sanger (ABI3730xl) : 1000 euros / Mbase

taux d’erreur < 99%, assemblage de qualité à ~10 équivalents, supercontigage immédiat

Roche/454 GSFLX : 100 euros / Mbase

taux d’erreur > 1% dans les régions homopolymériques, assemblage de qualité à ~20 équivalents, pas de supercontigage

Illumina 1G : <10 euros / Mbase

taux d’erreur <99.9 % , pas d’assemblage de qualité …

Page 39: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

15x 4x

Assemblage,finition

10-100x

0.5x

15x

Assemblage,finition

Page 40: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Evolution accélérée des NTSs

• Roche / 454• 2006 : 20 Mb par run

(100 bases par lecture)• 2007 : 100 Mb par run

(250 bases par lecture)

• 2008 : 1 Gb par run (500 bases par lecture)

• Solexa/Illumina 1G

• 2007 : 1 Gb par run (32 bases par lecture)

• 2008 : 3 Gb par run (50 bases par lecture, lectures en paires)

Difficile de prévoir quelle technologie sera utilisée pour séquencer un génome dans 1-2 ans …

Page 41: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Vers un séquençage génomique à très bas coût

• Dépendra de la capacité à assembler des séquences courtes et peu chères :– Développement de lectures « paired-ends » ?– Allongement des longueurs utiles de type

Solexa ?– Baisse des coûts des lectures 454 ?– Amélioration spectaculaire des logiciels

d’assemblage ?– Arrivée d’une nouvelle technologie ?

Page 42: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Une perspective très mobile …

• Les programmes de comparaison multi-génomes devraient se généraliser

• La métagénomique connaîtra un développement exponentiel

• De nombreux projets jugés jusqu’alors trop coûteux deviennent réalisables

• … Mais toutes ces perspectives nécessitent des progrès pour être envisageables pour des génomes de grande taille

Page 43: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

Une perspective très mobile …

• Les technologies utilisées peuvent devenir caduques très vite

• Les besoins informatiques augmentent considérablement

• Risque d’envahissement par des données massives de faible qualité

Page 44: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07

• Director : J. Weissenbach

• Sequencing coordination : P. Wincker

• Production Sequencing: J. Poulain

• Roche / 454 development : C. Cruaud

• Informatics: C. Scarpelli, V. Vico, V. Anthouard, J. Leseaux

• Assembly : J.M. Aury

Page 45: Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker, Séminaire INRA, Paris, 06.11.07