NGS: the basics · Next generation sequencing Massively parallel sequencing ... Immobilized PCR on...

Preview:

Citation preview

NGS: the basics

Human genome sequence

June 26th 2000: official announcement of the completion of the draft of the human genome sequence (truly finished in 2004)

Costs:HGP:

3 billion $15 years

Celera:200 million $

2 years

Craig VenterFrancis Collins

Next-Generation Sequencing (NGS): Slashing costs

Next generation sequencing Massively parallel sequencing

Key: direct sequencing of DNA without the bacterial cloning step:

1. From colonies to poloniesImmobilized PCR on solid support

Flow cell or beads (emPCR)

2. Single molecule sequencingVoir Claude Thermes

Library preparation

LM-PCR to allow single molecule amplification

Clonal amplification of single molecules

Emulsion PCR on beads(454, Ion Torrent)

Ion Torrent: Natural Chemistry

Fast Direct Detection

Nucleotides flow sequentially over Ion semiconductor chipDirect detection of natural DNA extensionA few seconds per incorporation

Sensor Plate

Silicon SubstrateDrain SourceBulk

dNTP

To column receiver

∆ pH

∆ Q

∆ V

Sensing Layer

H+

Rothberg J.M. et al Nature doi:10.1038/nature10242

Scalable Semiconductor Technology

WaferSemiconductor Manufacturing

ChipSemiconductor Packaging

Chip Cross Section

Semiconductor Design

Illumina amplification step on a flow cell

Sequencing by synthesis

CRT: cyclic reversible termination

Illumina

Direct in situ sequencing of polonies

A C

TG

MiSeq : 300 nt reads (15x106 per run)

NextSeq : 150 nt reads (400x106 per run)

HiSeq2500/3000/4000 : 100 – 150 nt reads (≈2x109 per run)

Illumina sequencers

The 2016 winning technologies

IlluminaPoloniesSeveral 100 million readsA few 100 bp longError rate ~0.1%

Oxford nanoporesSingle moleculesA few 10,000 readsSeveral 10,000 bp longError rate ~10%

Impact of costs decreases

Collecte des échantillons et design de l’expérience

SéquençageGestion DonnéesRéduction Données Analyses des données

100%

0%

Pre-NGS (2000) 2010 2020

Plan d’expérienceStratégie de construction des banques

Grands types d’applications

Séquençage de novo de génomes Biologie de l’évolution Ouverture de l’éventail des modèles biologiques Diversité du vivant devient accessible à la biologie

moléculaire Caractérisation de la variabilité dans une

population Caractérisation de la diversité des espèces

dans l’environnement Caractérisation des mécanismes

d’interprétation de l’information génomique

DNA-seq Libraries

Genomic DNA

Size selection

Sonication

Illumina TruSeq technology

End repair

Phosphorylation

A - overhang

Primer 1: complementary to R

Primer 2: equivalent to R

Ligate Y-adaptors

PCR

AA

AT

TA

PCRamplification

Double StrandedY-adapter method library

Y adapterligation

3’ endadenylation

endpolishing

endPolishing

P adapterligation

3’ extension and nick repair

Double StrandedBlunt-End method library

Strand denaturationend dephosphorylation

starting DNA fragment

biotinylated single strand adapterligation

primer extension

double strandedadapter ligation

strand separationby denaturation

Single Strandedmethod library

endpolishing

PCRamplification

TA

AT

PCRamplification

Nextera “tagmentation”

Tagmentation

Dual barcode approach

up to 96 indexedsamples

Tagment Enzyme fragments DNA and attaches junction adapters (blueand green) to both ends of the tagmented molecule

rapid ( 2-4 hours) and requires small quantities (50 ng)

Transposomes / Tagment Enzyme

DNA-seq Libraries

RNA-seq Libraries

Paired end sequencing

1rst read 2d read1rst barcode 2d barcode

“Classical” Illumina mate pair library

Problems :• low coverage• few fragments, over-amplified

several kilobases

Circularisation

Fragmentation, purification, adaptor ligation

Paired end sequencing

A new method : Nextera Mate Pair

Tagment Enzyme fragments DNA and attaches a biotinylated junctionadapter (green) to both ends of the tagmented molecule

circularization

Fragmentation enrichment via the biotin tag

adapters ligation at both ends

More than 50 NGS applications

Caractérisation des mécanismes d’interprétation de l’information génomique

Conformation du chromosome, higher orderchromatin structure

Organisation nucléosomale Méthylation de l’ADN et autres modifications Liaison des facteurs de transcription Réplication de l’ADN Transcription nucléaire, conformation des ARN,

interaction ARN-protéines ARN sous toutes ses formes, petits, grands,

épissage alternatif, sens-antisens, codant-non codant, compartimentation cellulaire, transport, traduction, modification, dégradation

Une multiplicité d’approches pour analyser presque tous les niveaux d’organisation et d’expression du génome

Impact of costs decreases

Collecte des échantillons et design de l’expérience

SéquençageGestion DonnéesRéduction Données Analyses des données

100%

0%

Pre-NGS (2000) 2010 2020

Enjeu majeur

Quelques enjeux de l’analyse des données NGS

Va concerner des pans entiers de la biologie qui en seront transformés

Va concerner un très grand nombre de biologistes: problème de la formation et de l’interdisciplinarité

Il va falloir traiter des volumes de données dont l’expansion actuelle est énorme

Il va falloir intégrer des données hétérogènes

Quelques considérations clefs

Diversification et complexification des analyses bioinfo accompagnent la diversification des applications du NGS

L’analyse initiale (préliminaire) des données est plus homogène, et est maintenant bien intégrée dans des environnements conviviaux (Prêt à porter)

L’analyse plus poussée des données demandera pendant encore longtemps du « sur mesure ».

Plus vous maitriserez la compréhension des outils d’analyse, plus vous pourrez monter vos plans d’expérience de façon adaptée, et plus vous pourrez interagir de façon productive avec les bioinformaticiens pour avoir un « sur mesure » qui vous sied bien.

Recommended