15
Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) Zheng et al. Zheng et al. Genome Biology 2011, 12:R114 http://genomebiology.com/2011/12/11/R114 (21 November 2011)

Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

Genome-wide patterns of genetic variation insweet and grain sorghum (Sorghum bicolor)Zheng et al.

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114 (21 November 2011)

Page 2: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

RESEARCH Open Access

Genome-wide patterns of genetic variation insweet and grain sorghum (Sorghum bicolor)Lei-Ying Zheng1†, Xiao-Sen Guo2†, Bing He2†, Lian-Jun Sun1†, Yao Peng2, Shan-Shan Dong2, Teng-Fei Liu2,Shuye Jiang1,3, Srinivasan Ramachandran1,3, Chun-Ming Liu1 and Hai-Chun Jing1*

Abstract

Background: Sorghum (Sorghum bicolor) is globally produced as a source of food, feed, fiber and fuel. Grain andsweet sorghums differ in a number of important traits, including stem sugar and juice accumulation, plant heightas well as grain and biomass production. The first whole genome sequence of a grain sorghum is available, butadditional genome sequences are required to study genome-wide and intraspecific variation for dissecting thegenetic basis of these important traits and for tailor-designed breeding of this important C4 crop.

Results: We resequenced two sweet and one grain sorghum inbred lines, and identified a set of nearly 1,500genes differentiating sweet and grain sorghum. These genes fall into ten major metabolic pathways involved insugar and starch metabolisms, lignin and coumarin biosynthesis, nucleic acid metabolism, stress responses andDNA damage repair. In addition, we uncovered 1,057,018 SNPs, 99,948 indels of 1 to 10 bp in length and 16,487presence/absence variations as well as 17,111 copy number variations. The majority of the large-effect SNPs, indelsand presence/absence variations resided in the genes containing leucine rich repeats, PPR repeats and diseaseresistance R genes possessing diverse biological functions or under diversifying selection, but were absent in genesthat are essential for life.

Conclusions: This is a first report of the identification of genome-wide patterns of genetic variation in sorghum.High-density SNP and indel markers reported here will be a valuable resource for future gene-phenotype studiesand the molecular breeding of this important crop and related species.

BackgroundSorghum (Sorghum bicolor) originated from Africa andis a pro-poor multipurpose crop providing food, feed,fiber and fuel across a range of agro-ecosystems, espe-cially in those with fragile conditions. Food and Agricul-ture Organization data show that sorghum is currentlythe number five most important grain crop and, in thepast decade, its yearly production has been stabilized at60 million tonnes with a harvesting area of 44 millionhectares. Sorghum is known as ‘the camel amongstcrops’ and requires much less water than many othercereals and has a remarkable ability to produce a cropunder low levels of inputs and adverse stress conditions.Sweet sorghum is a natural variant of common grainsorghum with high stem sugar content and often

considered a smart crop because it can produce bothfood and fuel. As a C4 crop with a high level of directlyfermentable stem sugars and the ability to produce highbiomass under adverse conditions, sweet sorghum isconsidered an ideal biofuel crop for the first and secondgeneration bioethanol production, particularly havingthe advantages of exploitation of marginal land andavoiding competing for land for food crops [1-3]. How-ever, the genetic basis for these remarkable traits ofsweet sorghum is poorly understood.Genetic variation consists of sequence variation and

structure alteration. Sequence variation normally ismanifested by SNPs, short sequence insertions and dele-tions (indels), microsatellites or simple sequence repeats,and transposable elements. The importance of SNPs andindels was initially realized by the occurrence of humansickle-cell anemia and cystic fibrosis diseases, the dra-matic consequences caused by a nucleotide change inthe hemoglobin beta gene [4] and a three-base deletion

* Correspondence: [email protected]† Contributed equally1Institute of Botany, Chinese Academy of Sciences, Beijing 100093, ChinaFull list of author information is available at the end of the article

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

© 2011 Zheng et al.; licensee BioMed Central Ltd This is an open access article distributed under the terms of the Creative CommonsAttribution License (http://creativecommons.org/licenses/by/2.0), which permits unrestricted use, distribution, and reproduction inany medium, provided the original work is properly cited.

Page 3: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

in the gene encoding a cystic fibrosis transmembrane con-ductance regulator [5-7], respectively. Structural alterationis generally described as presence/absence variations(PAVs) and copy number variations (CNVs), whichinclude large scale deletions, insertions, duplications,inversions and translocations. An effect of CNV on pheno-typic variation was documented 75 years ago in Drosophilamelanogaster, with the Bar eye phenotype being caused bythe Bar gene duplication [8,9]. In plants, sequence poly-morphisms have gained much interest in the academicand breeding communities [10-12]. In several model andcrop plants, including Arabidopsis, rice and maize, wholegenome SNPs and indels have been developed [13-16] fora broad range of functional and evolutionary studies,including association mapping [17,18], genetic diversity[19,20], domestication, and genome evolution [21-23]. Theeffects of CNVs in plant genomes have only been reportedin a few cases. In Arabidopsis and rice, array-comparativegenome hybridization has been used to examine single-feature polymorphisms [24,25], genomic lesions caused bymutagenesis [26], as well as natural variation [27]. Inmaize, structural alterations have been reported to violatethe intraspecific genome co-linearity [28,29] and contri-bute to the diversity of a range of important traits, such asheterosis and disease responses [22,30,31]. CNVs alsoshape the genome diversity of progeny of the immediatenext generations in Arabidopsis [32]. Nonetheless, CNVsand their importance in plant genome and phenotypic var-iation are still far from well explored.S. bicolor has three subspecies, namely arundinaceum,

bicolor and drummondii, and the cultivated sorghumsare all from bicolor, which has five local races, bicolor,caudatum, durra, guinea and kafir [33]. Although sweetsorghum differs phenotypically from grain sorghum andtends to have a sugar-rich juicy stem, taller plant, higherbiomass but less grain production [1,34], how sweet sor-ghum differs genetically from grain sorghum is not welldefined [35,36]. Sweet sorghum was found in severallocal races of bicolor subspecies [37], which raises ques-tions about the origin, selection and genetic and

genomic basis of sweet sorghum. To address these ques-tions, knowledge about the genome-wide genetic varia-tion between sweet and grain sorghum is required. Suchknowledge will also be useful for genetic improvementand tailor-designed breeding of this important crop[38,39]. The availability of the first whole genomesequences for a grain sorghum, BTx623 [40], has pro-vided a template for genome-wide analysis of geneticvariation. However, without additional genomes in thesame species it is difficult to access hidden genome var-iation information. We took a next generation sequen-cing technology and resequenced two sweet and onegrain sorghum genomes to identify patterns of sequencepolymorphism and structural variation in comparisonwith the published BTx623 genome. This effort identi-fied a large quantity of SNPs, indels, PAVs and CNVs insorghum. Comparison of these variation data definedpotential genome regions and metabolic pathways asso-ciated with sweet- and biofuel-associated traits. Thelarge genome resources provided here are useful forcomparative genomics and crop breeding in sorghumand related species.

ResultsThe morphological and physiological characteristics ofsorghum lines used for resequencingSorghum (S. bicolor) accessions Keller, E-Tian, Ji2731and the reference accession BTx623 were used for thiswork. Keller is an American-bred elite sweet sorghumline and has been shown to have good performanceacross a range of environmental conditions [41]. E-Tian(literally meaning Russian Sweet in Chinese) was asweet sorghum line introduced to China in the early1970s, while Ji2731 is a representative Chinese kaolianggrain sorghum well adapted to the northeast part ofChina with good seedling establishment and a shortgrowth period.These sorghum lines differ in a number of agronomic

and biofuel-associated traits (Table 1). As expected, thetwo sweet sorghum lines (Keller and E-Tian) had taller

Table 1 Agronomic and biofuel-associated traits of the sorghum lines used for resequencing

Sorghum line BTx623 Ji2731 Keller E-Tian

Plant height (cm) 136.3 ± 9.7 235.6 ± 17.1 381.4 + 26.2 268.0 ± 12.5

Brix (%) 12.2 ± 1.2 0 17.5 + 2.5 15.4 + 2.1

Stem weight (g) 165.0 ± 35.4 252.0 + 42.4 635.0 + 84.9 457.2 + 166.5

Stem diameter (cm) 1.5 ± 0.2 1.5 ± 0.1 1.6 + 0.2 1.4 ± 0.3

Internode number 8.2 ± 0.4 10.7 ± 0.5 13.0 + 0.7 10.9 ± 0.3

Leaf weight (g) 73.4 ± 23.5 70.8 ± 10.9 165.0 + 24.7 79.6 ± 22.1

Panicle length (cm) 26.7 ± 2.8 18.1 ± 1.1 24.2 + 1.8 22.9 ± 2.0

Panicle weight (g) 83.0 ± 14.1 98.4 ± 10.5 58 + 10.6 88.0 + 32.0

Peduncle length (cm) 41.3 ± 2.9 21.1 ± 3.7 56.7 + 3.4 39.9 ± 1.9

The data are shown as mean with standard errors and were collected from plants grown in an experimental field in Gongzhulin, Jilin in three consecutive yearsfrom 2007 to 2009.

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 2 of 14

Page 4: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

plant height, and higher stem Brix content and stemweight in comparison with the two grain sorghum lines.The Chinese sorghum line Ji2731 had zero accumulationof juice in the stem and the highest grain yield, whichare the typical features of Chinese kaoliang. The varia-tion in the biological traits in these four sorghum linesprovides a basis to study gene-trait associations byexamining the sequence polymorphisms and structuralvariations at the whole-genome level.

Short-read resequencing and landscape of genomevariationA whole-genome shotgun strategy and Illumina GenomeAnalyser sequencing technology were employed. Thegenome size of the reference genome BTx623 is738,787,382, of which the effective size is 697,579,688(excluding the N bases). We estimated that a 10 × gen-ome coverage should be sufficient for aligning most ofthe sequences. Nine paired-end sequencing librarieswith an insert size around 500 bp, three for each sor-ghum line, were constructed using DNA samples from10-day-old etiolated seedlings. Resequencing yielded620.72 million 44-bp paired-end reads, which comprised27.31 Gb of high-quality raw data. Sequence reads werealigned to the reference BTx623 genome using SOAPsoftware v2.21 [42]. In total, we achieved an effectivedepth of ×36.51 coverage, with an average of ×12.17 foreach line (Table S1 in Additional file 1).With these reads and the information from the refer-

ence genome BTx623, including physical sequence align-ment and gene models, we identified large quantities ofSNPs, indels and PAVs (Figure 1). In total, 1,057,018SNPs among these sorghum genomes, of which 83,262SNPs were located in the coding regions, were identified(Table S2 in Additional file 1; Additional file 2).SOAPsnp [43] allows the detection of heterozygosity ofSNPs and the results showed that the number of hetero-zygous SNP sites is less than 25% of all SNP sites overthe whole genome or in coding regions of the sorghumgenome (Table S3 in Additional file 1). The proportionsof genic SNPs identified as coding, intronic, or UTR were42.3%, 50.2%, and 7.5%, respectively. We also identified99,948 indels ranging from 1 10 bp in length, of which2,230 were in coding regions (Table S4 in Additional file1). The proportions of genic indels identified as coding,intronic, or UTR were 9.7%, 75.7%, and 14.6%, respec-tively. Moreover, 16,487 PAVs with an average length of2,394 bp were identified (Table S5 in Additional file 1).Coding regions of 1,416 genes in sorghum genomes wereincluded in these PAVs (Table S6 in Additional file 1).CNV was detected by using read depth of coverage [44].A total of 17,111 CNVs, including 13,427 gains and 3,684losses ranging from 2 kb to 48 Mb, were detected (5,994for Ji2713, 3,603 for Keller and 7,514 for E-Tian).

Sanger sequencing technology was used for targetedgene verification. Primer sequences spanning genomicregions predicted to contain genetic variation were usedto amplify genomic DNA templates from the three sor-ghum lines. In this manner, 215 SNPs in 30 genes wereselected and 213 were verified using this method, sug-gesting a prediction accuracy of over 99% (Additionalfile 3). Similar accuracy was obtained with 48 indels and9 CNVs.Because some newly identified genes might exist

beyond the currently assembled BTx623 sorghum gen-ome, we assembled unmapped reads with SOAPdenovoand obtained contigs with a total sequence length of 7.2Mb. Annotation of these contigs showed 73 putativeabsent genes with an average length of 409 bp (onlycoding regions were considered; Table S8 in Additionalfile 1). A Blast search against Arabidopsis, rice andmaize genome databases revealed that 33 of these genesshowed homology with known proteins (E-value < 1e-6).

SNP annotations and large-effect SNPsSNPs are small differences but with great impact on thevariation of genomes and the biological traits. We there-fore looked into the SNP annotations in detail and paidspecial attention to those in genic regions. For this pur-pose, the newly sequenced grain sorghum BTx623 gen-ome was used as a reference [40]. Bearing in mind thatall genome annotations, including that of sorghum, areimperfect and many factors affect the analysis of effectsof SNPs - especially the presence of abundant transpo-son elements in the sorghum genome, which can be dif-ficult to detect when they are present in low copynumbers, are even expressed, or contain fragments of‘real’ genes - we analyzed the effects of SNPs using fourdifferent gene categories: bona fide genes, low-confi-dence genes, pseudogenes and transposons. Weretrieved gene models of the Btx623 genome from thePhytozome database [45], and verified the gene identitiesusing EST information from PlantGDB and maize geneorthologues from MaizeGDB [46]. In the end, the genesets included 27,640 bona fide genes, 5,197 low-confi-dence genes, 932 transposons and 727 pseudogenes,respectively. These genes fall into 2,637 Pfam families(Additional file 4).As shown in Table 2 the non-synonymous-to-synon-

ymous ratios in the bona fide gene categories were thesmallest, increasing from pseudogenes to transposons tolow-confidence genes. It was also found that the bonafide Pfam-containing genes had a smaller ratio thanthose of the low-confidence genes and transposons(Table 3). Clearly, the presence of genes involved intransposon functions and transposases have strongeffects on increasing the frequencies of SNPs in the gen-ome and hence increasing the diversity of the genomes.

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 3 of 14

Page 5: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

Figure 1 Genome-wide landscape of genetic variation in Sorghum bicolor. Gene density of chromosomes is visualized by line darkness; themore genes on a chromosome region, the darker the color. The purple and blue colors in the CNV ring represent gain and loss of copynumber variation, respectively. For PAVs, the green color stands for the absence of variation, whereas pink for the presence of variation.

Table 2 Number and distribution of coding region SNPs in the resequenced sorghum genomes

Bona fide genes Low confidence genes Transposons Pseudogenes Total

Sample Non-syn Syn Non-syn/Syn

Non-syn Syn Non-syn/Syn

Non-syn Syn Non-syn/Syn

Non-syn Syn Non-syn/Syn

Non-syn/Syn

Ji2731 23,462 18,710 1.25 3,397 1,830 1.86 853 449 1.90 0 0 0.00 1.32

Keller 14,091 10,346 1.36 2,048 1,016 2.02 606 330 1.84 214 164 1.30 1.43

E-Tian 17,781 14,196 1.25 2,386 1,281 1.86 609 374 1.63 314 222 1.41 1.31

Total 38,261 29,625 1.29 5,981 3,113 1.92 1,601 909 1.76 464 327 1.42 1.36

Syn, synonymous.

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 4 of 14

Page 6: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

When the non-synonymous-to-synonymous ratios in thecorresponding gene categories were compared, it wasfound that, overall, three out of the four gene categoriesdisplayed higher ratios in the coding regions of the gen-ome, except for transposons (Tables 2 and 3), indicatingthat the Pfam domains possibly have fewer amino acidsubstitutions. A similar drop in the ratios was alsoreported for the rice genome [20], but the decrease inour sorghum genomes was smaller, which might berelated to the imperfection of the genome annotationsand the abundant presence of transposon elements.We further analyzed the distribution of the SNPs in

Pfam-containing genes in detail Figure 2. shows thenumber of non-synonymous and synonymous SNPs inindividual Pfam gene families. The number of genes inthe four gene categories is also indicated. Nearly half ofthe SNPs were found in leucine-rich repeats and genesencoding pentatricopeptide repeats (PPRs; Additionalfile 5), and another 20% of the total SNPs were from 10Pfam family genes, including genes encoding proteinkinases, protein tyrosine kinases, tetratricopeptiderepeats, WD domain repeats, zinc knuckles, NB-ARCdomains, ankyrin repeats, HEAT repeats, F-boxes, andarmadillo/beta-catenin-like repeats. These Pfam familygenes often have non-synonymous-to-synonymous ratioshigher than 1, making the overall genome ratios high,and when these genes and the transposons wereremoved for the calculation, the ratio was reduced toclose to 1 (data not shown). The finding that sequencesencoding leucine-rich repeats and NB-ARC domainshad higher ratios of non-synonymous to synonymousSNPs was consistent with findings in Arabidopsis, riceand maize, indicative of the diversification of plant dis-ease-resistance proteins caused by pathogen pressure[19,20,22], whereas genes coding for ubiquitin, elonga-tion factor Tu domain 2 and GTP binding domain pro-teins, all of which have important biological functionsessential for life, had the lowest non-synonymous tosynonymous ratios. Furthermore, we found that X8domain and glycosyl hydrolase family 17 containinggenes were amongst the families with the highest non-synonymous to synonymous ratios. As controls, the low-

confidence genes, transposons and pseudogenes contain-ing various Pfam domains were also included in the ana-lysis. These genes tended to have more non-synonymousSNPs than synonymous SNPs, as represented by genesencoding BED zinc fingers, hAT family dimerizationdomains, and DUF domains, and MuDR family transpo-sases. As these genes are not normally functional, cau-tion should be exercised when interpreting the genefamilies with exceptionally high non-synonymous tosynonymous ratios, which might not be bona fide genes,although evaluation of sorghum Pfam genes using thePlantGDB database showed that 71% of them had ESTsupport.We went further to analyze the distribution of so-

called large-effect SNPs, which are predicted to have apotentially disabling effect on gene function. It wasfound that 1,664 SNPs were expected to induce prema-ture stop codons, 65 to alter initiation methionine resi-dues, 512 to disrupt splicing donor or acceptor sites,and an additional 16 to remove the annotated stopcodons, resulting in longer open reading frames (Figure3b). These large-effect SNPs are statistically significantly(P-value < 0.01) enriched in 14 Pfam families anddepleted in 9 Pfam families (Figure 3a). However, large-effect SNPs were mostly enriched in transposase genes,such as those encoding MuDR family transposases,Transposase family tnp2 and retrotransposon gag pro-teins, or genes affected by transposon elements, such ashAT family dimerization domain and DUF domaingenes. As these genes do not appear to be functional,we need to experimentally verify the importance of suchenrichment. In contrast, those families devoid of large-effect SNPs, including ABC transporter and methyl-transferase domain genes, are important for organismsurvival.Taken together, we have identified large sets of SNPs,

some of which are useful for further downstream func-tional genomics analyses if the SNPs reside in bona fidegenes (SNPs residing in non-functional genes or trans-poson elements can also be useful as molecular mar-kers). However, these results should be viewed withcaution at this stage. As the identification of large-effect

Table 3 Number and distribution of coding region SNPs in Pfam domain-containing genes in the resequencedsorghum genomes

Bona fide genes Low confidence genes Transposons Pseudogenes Total

Non-syn Syn Non-syn/Syn

Non-syn Syn Non-syn/Syn

Non-syn Syn Non-syn/Syn

Non-syn Syn Non-syn/Syn

Non-syn/Syn

Ji2731 17,694 14,798 1.20 921 567 1.62 489 259 1.89 0 0 0.00 1.22

Keller 10,503 8,156 1.29 560 295 1.90 301 173 1.74 101 97 1.04 1.31

E-Tian 13,439 11,197 1.20 600 373 1.61 341 219 1.56 146 119 1.23 1.22

Total 28,551 23,182 1.23 1,608 965 1.67 897 504 1.78 209 174 1.20 1.26

Syn, synonymous.

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 5 of 14

Page 7: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

SNPs depends on the annotation of gene models, theexact number and spectrum of such SNPs will probablybe modified when the genome annotation is updated.Furthermore, the sorghum lines used for genome rese-quencing differ in many traits, and the results may bebiased towards having more large-effect SNPs. It wouldbe interesting to include sorghum lines that closely phe-notypically resemble each other for comparison. Finally,we analyzed only a limited number of sorghum lines; arepresentative collection of sorghum lines is required tojustify the results obtained.

Effects of indels and presence/absence variationsWe examined the genome-wide patterns of the 1- to 10-bp indels. With increasing indel size, the number ofindels decreased. However, our result show that indelsthat are not multiples of 3 bp and produce frameshiftmutations are particularly uncommon in coding regionsbut relatively common in non-coding regions (Figure4a). We also found that genes with multiples of 3-bpindels were more commonly present in the genomethan those with indels of other lengths (Figure 4b).We further analyzed the Pfam domains affected by

indels. Similar to the situation of non-synonymousSNPs, indels were statistically significantly (P-value <0.001) enriched in NB-ARC and leucine rich repeatdomain genes (Table S11 in Additional file 1). Indelswere also found enriched in F-box, protein kinase andtyrosine kinase gene families, which are known to pos-sess diverse functions and are suspected to follow arapid birth-death cycle [47-49]. Although in theory theeffects of frame-shifting (1-, 2-, 4-, 5-, 7-, 8- and 10-bp)indels are different from those of non-frame-shift (3-, 6-and 9-bp) ones, we found that, in sorghum, the genefamilies affected by them were very similar (Additionalfile 6). PAVs were highly enriched (P-value < 0.001) innine gene families, some of which, such as NB-ARC

Non-synonymous SNP

Synonymous SNP

High Confidence Gene

Low Confidence Gene

Pseudogene

Transposon

88 318 Ubiquitin family**99 13

57 144 Elongation factor Tu domain 2**30 2

54 136 Elongation factor Tu GTP binding domain**29 2

35 87 MORN repeat**67

74 176 Thioredoxin**53

45 99 Clp amino terminal domain**19

227 484 C2 domain**121

38 80 3-Oxoacyl-[acyl-carrier-protein (ACP)] synthase III C terminal**20

45 94 Sodium/hydrogen exchanger family**27

36 75 Nodulin-like**19

41 84 Glutaredoxin**58

254 495 Regulator of chromosome condensation (RCC1)**119

37 72 Disease resistance/zinc finger/chromosome condensation-like region*18 1

37 70 Sodium/calcium exchanger protein*26

54 100 FAE1/Type III polyketide synthase-like protein**27

55 97 Protease inhibitor/seed storage/LTP family**103

55 96 Protein of unknown function, DUF538**44 3

39 68 Phosphatidylinositol 3- and 4-kinase*15

160 276 RNA polymerase Rpb1 C-terminal repeat**59

103 177 Phospholipase D Active site motif**29

44 75 PH domain*29

99 163 E1-E2 ATPase**37

50 80 WD40-like Beta Propeller Repeat*23

167 257 Mitochondrial carrier protein**173

70 106 Annexin*41

43 65 Glycosyl hydrolases family 16*34

75 111 Triose-phosphate Transporter family*47

396 574 EF hand**426

49 71 Berberine and berberine like*13

109 155 Jacalin-like lectin domain**25

53 74 Ion transport protein*25

65 90 von Willebrand factor type A domain*14 6

154 213 haloacid dehalogenase-like hydrolase**84

53 72 Extensin-like protein repeat*16

87 118 Glycosyl hydrolases family 28*36

72 97 PB1 domain*35

60 80 Cyclic nucleotide-binding domain*30

64 84 Chalcone and stilbene synthases, C-terminal domain*48

86 112 Cation transporter/ATPase, N-terminus*25

64 79 ACT domain65

72 88 Exostosin family*39

308 375 ABC-2 type transporter**71

79 96 Plant protein of unknown function*29

466 556 ATPase family associated with various cellular activities (AAA)**192

786 937 Kelch motif**378

47 56 DIL domain11

111 132 B-box zinc finger*51 3

157 186 Transferase family*77

165 194 Helix-loop-helix DNA-binding domain*155

63 74 Plant invertase/pectin methylesterase inhibitor55

125 146 FAD binding domain*43

49 57 Actin17

87 101 O-methyltransferase49

94 109 START domain*22

70 81 Dirigent-like protein41

199 230 GTPase of unknown function*95

52 59 Basic region leucine zipper86

92 103 Miro-like protein87

51 57 Ion channel19

289 321 Peroxidase*149

132 146 AMP-binding enzyme*49

125 138 Calcineurin-like phosphoesterase*62

49 54 Putative methyltransferase27

850 931 ABC transporter**200

271 295 PBS lyase HEAT-like repeat*61

167 181 Cellulose synthase*31

84 91 UBA/TS-N domain47

171 185 PAN domain*38 4

135 146 Prenyltransferase and squalene oxidase repeat52

74 79 Formin Homology 2 Domain17

139 146 Plant PDR ABC transporter associated22

167 175 Pyridine nucleotide-disulphide oxidoreductase56

436 456 ABC transporter transmembrane region*80

74 77 Pre-SET motif20

61 63 Phosphotransferase enzyme family14

67 69 FYVE zinc finger18

72 74 bZIP transcription factor96

847 867 Cytochrome P450**299 16

130 133 Heavy-metal-associated domain85

407 416 IQ calmodulin-binding motif*137

281 287 Viral A-type inclusion protein repeat*126

60 61 Sulfotransferase domain18

72 73 Helicase associated domain (HA2)15 1

129 130 U-box domain61

52 52 CRAL/TRIO, N-terminus28

121 121 Homeobox domain68

74 74 Domain of unknown function (DUF1605)15 1

12469 12201 PPR repeat**3673

98 95 Dimerisation domain41 4

315 305 DEAD/DEAH box helicase*84

404 388 D-mannose binding lectin*81 9

432 414 Helicase conserved C-terminal domain*128

72 69 Bacterial transferase hexapeptide (three repeats)63

338 319 Methyltransferase domain197

68 64 Harpin-induced protein 1 (Hin1)65

378 352 Legume lectin domain54

129 120 Glutathione S-transferase, N-terminal domain91

168 156 MATH domain82

196 181 Kinesin motor domain47

101 93 Ataxin-2 C-terminal region22

134 123 short chain dehydrogenase90

56 51 Histidine kinase-, DNA gyrase B-, and HSP90-like ATPase32

1411 1283 HEAT repeat*466

142 129 Protein of unknown function (DUF1668)38

75 68 NAF domain33

257 232 PAN-like domain54 8

95 84 Aldo/keto reductase family40

58 51 Acyltransferase27

1303 1139 Armadillo/beta-catenin-like repeat*380

202 174 B3 DNA binding domain120

111 95 Lipase (class 3)52

656 556 Zinc finger, C3HC4 type (RING finger)428

83 69 Pectinesterase39

71 59 Cation transporting ATPase, C-terminus15

64 53 Aminotransferase class I and II33

74 61 SRF-type transcription factor (DNA-binding and dimerisation domain)65 8

148 121 Glutathione S-transferase, C-terminal domain87

243 198 GDSL-like Lipase/Acylhydrolase128

459 371 Major Facilitator Superfamily192

339 274 BTB/POZ domain127

66 53 YDG/SRA domain20

248 197 S-locus glycoprotein family50 7

227 178 GRAS family transcription factor69

60 47 Domain of unknown function17

4040 3160 Protein kinase domain1030

194 151 DnaJ domain109

220 171 FAR1 family52 25 10 5

185 143 NAD dependent epimerase/dehydratase family88

3733 2870 Protein tyrosine kinase864

165 126 Transmembrane amino acid transporter protein62

201 153 Sugar (and other) transporter79

100 76 SNF2 family N-terminal domain27

152 115 SET domain47

208 157 Pumilio-family RNA binding repeat100

2553 1923 WD domain, G-beta repeat1057

89 67 Cyclin, N-terminal domain42

311 234 PHD-finger123

1613 1209 Leucine rich repeat N-terminal domain291 26

251 188 Integral membrane protein DUF6143

67 50 Universal stress protein family39

674 497 RNA recognition motif. (a.k.a. RRM, RBD, or RNP domain)382

67 49 CRS1 / YhbY domain28

162 118 BRCA1 C Terminus (BRCT) domain39

114 83 Hsp70 protein29

220 160 Arabidopsis proteins of unknown function76

115 83 Rare lipoprotein A (RlpA)-like double-psi beta-barrel88

71 51 Glycosyl transferases group 127

141 101 Serine carboxypeptidase53

148 105 Alcohol dehydrogenase GroES-like domain38

100 70 Late embryogenesis abundant protein33

459 321 SWIM zinc finger97 31 22

86 60 Lipoxygenase12

502 350 Protein of unknown function, DUF59463

538 374 Reverse transcriptase (RNA-dependent DNA polymerase)7 7 98

135 93 Cathepsin propeptide inhibitor domain (I29)43

433 298 Multicopper oxidase126

1836 1262 Ankyrin repeat*618

67 46 mTERF25

102 70 CBS domain pair50

279 191 alpha/beta hydrolase fold140

256 175 MatE106

62 42 Aldehyde dehydrogenase family15

197 133 NF-X1 type zinc finger20 9

83 56 DHHC zinc finger domain28

122 82 'chromo' (CHRromatin Organisation MOdifier) domain15 3 6

3497 2339 Tetratricopeptide repeat**1264

1540 1024 F-box domain*488

231 153 2OG-Fe(II) oxygenase superfamily123

48966 32407 Leucine Rich Repeat**6609 775

121 80 WRKY DNA -binding domain103

167 110 Integrase core domain3 36

72 47 Plastocyanin-like domain63

89 58 PLAT/LH2 domain14

155 101 Papain family cysteine protease40

132 86 IBR domain29

114 74 Cupin58

240 155 Subtilisin N-terminal Region54

84 54 C1-like domain48

510 324 Domain of unknown function DUF26100

336 213 M protein repeat97

73 46 Cupin domain56

110 69 Pollen allergen81

123 77 Ubiquitin carboxyl-terminal hydrolase30

98 61 Terpene synthase family, metal binding domain35

232 144 Zinc-binding dehydrogenase46

120 74 Response regulator receiver domain41

88 54 Glycosyl hydrolase family 3 N terminal domain17

88 54 Glycosyl hydrolase family 3 C terminal domain17

782 477 Myb-like DNA-binding domain*374

231 139 Subtilase family46

193 116 Retrotransposon gag protein5 4 24 2

65 39 Ras family54

77 46 Protein phosphatase 2C75

67 40 GRF zinc finger27 8

269 158 PA domain63

2257 1321 Zinc knuckle**294 125 33

305 177 Protein of unknown function (DUF295)*87

108 62 Terpene synthase, N-terminal domain32

129 74 BED zinc finger9 24

235 131 POT family*79

361 201 Endonuclease/Exonuclease/phosphatase family*40 27 12

117 65 KH domain69

90 50 OB-fold nucleic acid binding domain19

222 123 FBD*64

257 142 Zinc finger C-x8-C-x5-C-x3-H type (and similar)*134

259 143 Domain of unknown function (DUF1719)*27

75 40 LysM domain36

229 120 hAT family dimerisation domain*24 74

235 121 No apical meristem (NAM) protein*100

111 57 Male sterility protein32

121 61 Protein of unknown function (DUF1618)41 5

287 142 Eukaryotic protein of unknown function (DUF889)*43 23 4

118 58 Double-stranded RNA binding motif44

2233 1091 NB-ARC domain**183 24

517 252 Zinc finger, C2H2 type**283

158 77 AP2 domain*171

157 73 Glycosyl hydrolase family 1*36

211 96 Calcium binding EGF domain*41 5

84 38 Protein of unknown function (DUF563)28

156 69 Protein of unknown function (DUF1723)*32 14 10

148 63 K+ potassium transporter*30

123 51 Protein of unknown function, DUF1544*35 11

86 35 FHA domain*13

86 35 Receptor family ligand binding region*20

87 35 Ligand-gated ion channel*18

131 52 OPT oligopeptide transporter protein*28

110 43 MuDR family transposase*10 15 2

174 67 AT hook motif**79

141 54 Protein of unknown function (DUF 659)*24 5 19

201 76 Glycosyl hydrolases family 17**52

464 167 FNIP Repeat**18 1

87 30 Replication factor-A C terminal domain*7 1

213 56 X8 domain**48

0 50 100

% SNP Sites

Figure 2 Number and distribution of non-synonymous andsynonymous SNPs in different Pfam genes in the resequenced

sorghum genomes. The Pfam gene families with 30 or more non-synonymous and synonymous SNPs were analyzed and are listed.The Pfam genes are arranged according to the percentages of non-synonymous and synonymous SNP sites. The top Pfam genefamilies have lower percentages of non-synonymous SNP sites,while the bottom ones have higher percentages of non-synonymous SNP sites. The numbers in the non-synonymous andsynonymous horizontal bars show the absolute numbers of SNPs,whereas the numbers in the gene categories are the numbers ofgenes in each category. For each Pfam, the number of genes in thecategories of bona fide genes, low-confidence genes, transposonsand pseudogenes are also listed. Gene numbers that are lower than5% of the total genes analyzed are not shown. The chi-squaresignificance of the observed non-synonymous and synonymous SNPdistributions for each Pfam group is shown: *P-value < 0.05; **P-value < 0.001.

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 6 of 14

Page 8: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

Retrotransposon gag protein

cwf21

Lecithin:cholesterol acyltransferase

Integrase core domain

Zinc knuckle

Protein of unknown function (DUF793)

SWIM zinc finger

Eukaryotic protein of unknown function (DUF889)

Protein of unknown function, DUF1544

MuDR family transposase

Fe(II) oxygenase superfamily*

PPR repeat*

hAT family dimerisation domain

Protein of unknown function (DUF 659)

Transposase family tnp2

Major Facilitator Superfamily*

ke Lipase/Acylhydrolase*

Zinc finger, C3HC4 type (RING finger)*

Tetratricopeptide repeat*

Methyltransferase domain*

ABC transporter*

DEAD/DEAH box helicase*

Chalcone and stilbene synthases rminal domain

Number of SNPs per Kb

0 1 2 3 4 5

Large effect SNPs Common SNPs

0

200

400

600

800

Ji2731 Keller E-Tian

SN

Ps in g

enom

e

Intron splice sitesPremature stopsStart/stop codons

7500

15000

22500

30000Non-synonymous

Synonymous

Ji2731 E-Tian Keller

SN

Ps in g

enom

e

(a)

(b) (c)

2/116

1/2

6/37

6/29

9/424

5/40

6/21

6/186

12/58

2/80

1/127

1/122

8/192

3/4

42/266

8/476

3/33

14/138

1/3

3/18

8/41

12/88

8/123

Figure 3 Annotation and distribution of SNPs. (a) Pfam gene families significantly (P-value < 0.01) enriched or depleted with large-effectSNPs. Asterisks indicate Pfam families statistically significantly depleted of large-effect SNPs. (b) Statistics of different types of large-effect SNPs.(c) Statistics of synonymous and non-synonymous SNPs.

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 7 of 14

Page 9: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

domain genes, are the same as those enriched in SNPsand indels (Additional file 6).

Genes with copy number variationsThe annotation showed that 2,600 genes had 3,234CNVs, and 32 genes had CNVs in all three sorghumlines. Some of these 32 genes encode proteins involvedin basic biological functions, such as RNA polymerasebeta subunit (Sb04g009441, Sb04g009491, Sb02g017833),NADH dehydrogenase subunit 6 (Sb10g008595), riboso-mal protein S7 (Sb05g020390) and ribosomal proteinS18 (Sb02g032062). One gene, Sb04g035450, was foundto be lost in Keller and E-Tian, but gained extra copiesin Ji2731. A blast revealed that it is a homologue of theglutamate-gated kainate-type ion channel receptor subu-nit gene GluR5. Gene family enrichment analysisshowed that CNVs were statistically significantly (P-value < 0.001) enriched in genes encoding cellulosesynthases, pectinesterases, GRAS transcription factors,and BTB/POZ and auxin responsive proteins, in

addition to the DUF, leucine-rich repeat and the zincknuckle proteins (Additional file 2).

Genetic variation between sweet and grain sorghumWe speculated that some of the identified genetic varia-tion might contribute to the phenotypic differentiationof sweet- and biofuel-associated traits and focused ouranalysis on SNPs, indels and PAVs in genic regions. Forthis, we used the gene set of the reference BTx623 gen-ome as the control and identified all the shared variationwithin the two sweet sorghum lines and the variationbetween the reference genome and the Chinese localgrain sorghum, respectively. Subsequently, the two setsof data were compared to remove those genes that havelarge-effect SNPs in the Chinese local grain sorghum,and the remaining gene set considered as those differen-tiating sweet and grain sorghum. We selected SNPs thatare non-synonymous in the two sweet sorghum linesKeller and E-Tian but synonymous or even not presentin the grain sorghum line Ji2731 (the reference BTx623

30

20

20

10

40

0

60

Ind

els

in

ge

no

me

( X

10

00

)In

de

ls in

CD

S(

X1

0 )

Deletion

Insertion

Ji2731 Keller E-Tian1

2

3 45 6 7 8 9 10

600

400

200

0

Ge

ne

nu

mb

er

1 2 3 4 5 6 7 8 9 10

Indel length

(a)

(b)

Figure 4 Distribution of 1- to 10-bp indels in the sorghum genome. (a) Number of indels of different length in the coding sequence (CDS)regions and the whole genome. (b) Number of genes that contain indels of different lengths. The figure reveals that 3-bp indels in CDS regionsand genes that contain 3-bp indels are of the largest quantity. This implies that 3-bp indels cause the least negative effects on sorghum survival.

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 8 of 14

Page 10: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

is a grain sorghum line). Similarly, for indels and PAVs,we selected those that were identified in both the Kellerand E-Tian lines but not in Ji2731 and a gene was con-sidered the putative differentiating gene when one indelwas mapped to the coding region of the gene or thecoding region of the gene was affected by a PAV.Figure 5 shows the chromosomal locations of these

genes, most of which are scattered in the vicinity of sub-telomeric regions, and obvious clusters of sweet-asso-ciated genes were found in genomic regions onchromosomes 4, 6 and 9. The selected SNP positionswere mapped to 1,266 genes in this manner. A pathwayenrichment analysis was performed for these genes, andas a result, ten Kyoto Encyclopedia of Genes and Gen-omes (KEGG) pathways, including starch and sucrosemetabolism pathways and the lignin- and coumarine-biosynthesis associated phenylpropanoid biosynthesispathways, were identified as statistically significantly (P-value < 0.1) enriched in the sweet-related gene sets(Table 4). In addition, 123 genes selected by indels and53 genes selected by PAVs were identified. Amongthem, four genes were found to be in important genefamilies in previous studies. Sb10g024663 andSb03g032210 were reported to be members of the P450gene family, Sb09g017540 is a DREB transcription factor,and Sb01g034050 is in the expansin gene family. Owingto the limited grain and sweet sorghum genomes ana-lyzed and the lack of a de novo-assembled completesweet sorghum genome, the gene set reported here may

not represent the whole spectrum of the genes differen-tiating sweet and grain sorghum and further in-depthstudy is required.

DiscussionRapid development of sequencing technologies andbioinformatic tools makes the complete genome sequen-cing of many species possible, which provides a startingpoint to unravel the tremendous genetic variation anddiversity at the genome scale. Amongst several modelorganisms examined to date, such as human, mouse,Arabidopsis, rice, and maize, genome-wide patterns ofgenetic variation are able to be captured by sampling arelatively small number of genomes [14,20,50-52]. Byresequencing two sweet and one grain sorghum inbredlines, we uncovered nearly two million SNPs and indels,along with large numbers of PAVs and CNVs. This is afirst report on the genome-wide patterns of genetic var-iation in sorghum, which will be valuable for furthergenotype-phenotype studies and for molecular breedingof this important C4 model crop.Our study shows that the proportions of genic SNPs

identified as in coding regions, intronic regions, orUTRs are 42.3%, 50.2%, and 7.5%, respectively. Com-pared to Arabidopsis [19] and rice [14,20], the intronicregions of sorghum genes harbor more SNPs. Thismight be related to the increased size of the introns; theaverage intron size for Arabidopsis is 168 bp, and forrice it is 397 bp, but for sorghum it is 444 bp. Our

|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||| || | ||| |||||||||||||||| |||||||| || ||| || |||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||| ||| | | ||| ||| |||||||| ||||||||||||||| ||||||||||||||| ||||| ||| |||||| | | | ||||| |||||| |||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||| ||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||| ||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||| |||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||| ||||||||||||||||||||||||| || ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||| |||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||||| |||| | || || | || | |||||||| |||| |||| || ||||||||||||| ||||| ||||||||||||||||||||||||| ||||||||||||| |||||||||||||||| ||| ||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||| ||||| | || |||||| |||| |||| ||| || || |||| |||| ||||| | |||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||| || ||||| | ||||||||||| ||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||| |||||||||||||||||||||||| ||| ||||||||||||||| || ||||||| ||||| || | |||||||| || |||||| |||||||||||| | |||| ||||||||| |||| |||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||

| | | || | | | | | |

| |

||| | | | | ||| |

| | | |

| |

| | |

| | |

| | |

| |

| | | | |

0 20 40 60 80

Chromosome position (Mb)

Ch

rom

oso

me

|||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||| | |||||||||||||||||||||||||||||||||

||||||||| | | ||||||| |||||||||||| |||| |||| | ||||| | ||| |||||| || || ||| |||||||||||||||||||||||||||||||| |||| ||| |||||||||||||||||||||||||

||||||||||||||||| | | ||||||

||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

||||||||||||||||||||||||||||||||||||||||||||| || || ||| ||||||||| | || ||||| ||||||||| | ||||||||||||||| ||||||||| ||||

||||||| || || ||| | | || ||||| |||| |||||

||| | || | || ||||||| | || | |||||| | | |||| ||||||| |||||||| | |||||| |||||| |||||| ||| ||||||||||

|||||||||||||||| |||| |||||||||| ||| ||||||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||||||||||||||||| || |||||||| ||||||||||||||| ||||||||

||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||

||||||||||||||||||||||||||| |||||||| ||||||||||||||| || | |||||| | | |||| ||||| |||||

|

|Sorghum genes

Sweet genes

1

2

3

4

5

6

7

8

9

10

Figure 5 Chromosomal locations of genes differentiating sweet and grain sorghum. Genes with large-effect SNPs, indels and PAVs in thetwo sweet sorghum lines but devoid of these genetic variations in the grain sorghum were identified, considered as the sweet-associatedgenes, and mapped to the sorghum genome (see text for details). A 1-Mbp sliding window was used to define sweet-related regions onindividual chromosomes, and only those windows containing more than three sweet-associated genes are shown. The overall gene distributionin the sorghum genome is shown by the grey bars as the background of every chromosome.

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 9 of 14

Page 11: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

results also demonstrate that, in sorghum, the propor-tions of large-effect SNPs resulting in premature stopcodons, alteration of initiation methionine residues anddisruption of splicing donor or acceptor sites areremarkably similar to what have been reported so far inArabidopsis [19] and maize [22], but different from rice[20]. Furthermore, we found that 16 SNPs removedannotated stop codons and resulted in longer openreading frames, which is substantially smaller than thenumber (1,087) in maize.It is known that transposon elements are abundant in

sorghum as well as other cereal genomes [40,53]. As thegenome annotation is not perfect, caution should beexercised with regard to the analysis of the effects ofSNPs. Indeed, we found that the transposase genes,pseudogenes and low-confidence genes tended to havehigh non-synonymous-to-synonymous ratios in compar-ison with bona fide genes. This was reflected in thePfam SNP annotations as well as in the analysis of so-called large-effect SNPs, which are predicted to disablegene functions. Most of the SNPs resided in receptor-like kinases, PPR repeats, disease resistant NB-ARCgenes and other genes with multiple effects on stressresponses. These genes also exhibited high non-synon-ymous-to-synonymous ratios, further supporting thenotion from studies in other species that an arms racebetween plant-pathogen interactions results in diversifi-cation of the pathogen- or microbe-associated molecularpattern recognition receptors in plant genomes [54,55].Significantly, the highest non-synonymous substitutionratios were found in X8 domain and glycoside hydrolasefamily 17 (glucan endo-1,3-beta-glucosidase) genes,which has not been reported in Arabidopsis [19], rice[20] or maize [22]. Current annotations show that lim-ited low-confidence genes were included in these twoPfam gene families, although we cannot rule out thepossibility that these genes are pseudogenes, or trun-cated because of the transposon elements. Further stu-dies are required to validate whether they are related to

specific biological processes in sorghum. However, thefunction of these genes in carbohydrate binding as wellas in cell wall biosynthesis certainly provides clues tomanipulating genes of interest for biofuel production.In sorghum, the 14 gene families enriched with large-

effect SNPs comprise genes encoding DUF proteins withunknown functions or include transponsons, whichappear to be nonfunctional but may affect genetic varia-tion at the genome scale. Furthermore, gene familiesinvolved in biotic and abiotic stress tolerance, which donot contain transposons, also harbor enriched large-effect SNPs. For instance, over-expression of lecithin:cholesterol acyltransferase can increase lipid metabolismand the fluidity of membranes and hence the resistanceto heat and/or cold shock (United States Patent Applica-tion 20050150007), whereas chalcone synthase in flavo-noid biosynthesis and stilbene synthases for phytoalexinbiosynthesis play important roles in sorghum diseaseresistance [56,57]. None of these gene families werereported to be enriched with large-effect SNPs in Arabi-dopsis, rice or maize. This could be due to genome/spe-cies-specific diversity, or result from the predictionalgorithms used. Alternatively, this may also be relatedto the limited sorghum lines used, which have diverserelationships.This effort also uncovered substantial numbers of

indels and PAVs in the sorghum genomes. Indels thatare not multiples of 3 bp were particularly uncommonin coding regions but relatively common in non-codingregions. This implies that most frameshift mutations areharmful to sorghum survival. The spectrum of genefamilies affected by indels and PAVs was similar to thatof large-effect SNPs. This implies that although the ori-gins and scales of affected genome segments may differ,SNPs, indels and PAVs may share similar survival anddistribution patterns, at least in terms of gene familiesaffected. CNV studies in plants lag behind those in ani-mal and human models. Recent studies in maize showedits potential contribution to the heterosis of this cropduring domestication and disease responses [22,30,31].CNVs also shaped the genome diversity of progeny ofthe immediate next generations in Arabidopsis [32]. Inthe sorghum genomes, CNVs were present in severalthousand genes, and some of the commonly involvedgenes are involved in basic biological functions as wellas sugar- and bioenergy-associated traits. How this var-iation is associated with phenotypic variation is a newdirection of future research.The resequenced sorghum lines contained two elite

sweet sorghum lines and one local elite Chinese grainsorghum line. We were able to identify genetic variationin 1,442 genes differentiating sweet and grain sorghum.Some of these genes are involved in the starch andsucrose metabolism pathway and the lignin- and

Table 4 Pathways statistically significantly (P-value < 0.1)enriched in the sweet-related gene set

KEGG ID P-value Pathway name

sbi00230 0.058 Purine metabolism

sbi00500 0.077 Starch and sucrose metabolism

sbi00240 0.017 Pyrimidine

sbi00592 0.017 alpha-Linolenic acid metabolism

sbi00780 0.070 Biotin metabolism

sbi00940 0.030 Phenylpropanoid biosynthesis

sbi04140 0.055 Regulation of autophagy

sbi04146 0.055 Peroxisome

sbi03430 0.005 Mismatch repair

sbi03018 0.087 RNA degradation

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 10 of 14

Page 12: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

coumarine-biosynthesis-associated phenylpropanoid bio-synthesis pathway, which are obvious candidates forsugar and biofuel production and deserve further study.Five genes in the starch and sucrose metabolism path-way were identified and are located on chromosomes 2,6 and 9. In the phenylpropanoid biosynthesis pathwaythe cinnamyl-alcohol dehydrogenase gene (Sb06g028240,encoding EC 1.1.1.195) on chromosome 6 plays a cen-tral role in lignin biosynthesis. Previous genetic analyseshave identified several quantitative trait loci controllingstem Brix content, grain yields, plant height and biomasson the same chromosomes [35,36,41,58]. However, dueto the lack of the links between the genome physicalmap and the genetic linkage maps, it is hard to judgewhether these genes and quantitative trait loci co-loca-lize and further genetics and functional genomics stu-dies are required to characterize the functions of thesegenes. Some of these gene families and pathways, maynot be directly associated with sugar and biofuel traits,but rather reflect variation inherited from their differentorigins and/or caused by breeding selection. It is knownthat sweet sorghums are of polyphyletic origin, spread-ing from the kafir, caudatum, bicolor and other grainsorghum types [37,41]. Furthermore, using the BTx623genome as a reference, the Chinese kaoliang line Ji2731was found to harbor a lot more genetic variation thanthe other two lines (Additional file 6). Further genome-wide analysis with a panel of sweet and grain sorghumlines, close relatives of sorghum, as well as Chinese kao-liang is required to illustrate the complex relationships.

ConclusionsWe report here a whole genome map of SNPs, indels,PAVs and CNVs amongst elite sorghum lines, whichcan be used as a framework for future comparative andfunctional genomics. Sorghum is an important globalcrop, used for food, fodder, the production of alcoholicbeverages, as well as biofuels. Genome-wide comparisonstudies with trait data of elite sorghum lines using theSNPs, indels, PAVs and CNVs discovered here will pro-vide additional clues to the molecular basis of theremarkable traits of sweet sorghum and will provide apowerful source for association genetics and discoveryof alleles, which can be combined to achieve cropimprovement in the future.

Materials and methodsPlant materials and sequence data setsFour sorghum (S. bicolor) accessions were used in thisstudy. Btx623 is an elite grain sorghum line used forwhole-genome sequencing by the Joint Genome Insti-tute and for making several mapping populations [38].Keller (GRIN access code PI 653617) is an elite sweetsorghum line developed by DM Broadhead at US Sugar

Crops Field Station at Meridan, Mississippi in 1982 andhas been grown globally and proven to have good per-formance across a range of environmental conditions[41]. E-Tian (literally meaning Russian Sweet in Chi-nese) was a line introduced to China in the early 1970sand is known to have high stem Brix content, whileJi2731 is a Chinese local grain sorghum well adapted tothe northeastern part of China with good seedling estab-lishment and a short growth period (Professor Shi-JieGao and Dr Wei-Bin Gu, personal communication;Archives of Crop Varieties in Jilin Province, 1988).Seeds were imbibed and germinated at 25°C in dark-

ness under standard glasshouse conditions for 4 daysand 10-day-old etiolated seedlings were harvested forDNA isolation using the CTAB (Hexadecyl trimethyl-ammonium bromide) buffer method. Following qualityassessment, genomic DNA was randomly fragmentedusing sonification and size-fractionated through electro-phoresis and DNA fragments of the desired length weregel purified. Adapter ligation and DNA cluster prepara-tion were performed and subjected to Solexa sequencingaccording to the supplier’s protocol. The BTx623 refer-ence genome sequences were downloaded from theJoint Genome Institute Phytozome website [46].

Bioinformatics pipelineSNP detectionWe used a three-step procedure to detect high-qualitySNPs. First, we calculated the likelihood of each acces-sion’s genotype using SOAPsnp [43]. Based on the align-ment results, with consideration and analysis of datacharacteristics, sequencing quality and other experimen-tal influences, the Bayesian model was applied to theactual data to calculate the probability of genotypes.The genotype with the highest probability was selectedas the genotype of the sequencing individual at the spe-cific locus and a quality value was designated accord-ingly to reveal the accuracy of the genotype. Second,using the consensus sequence, a polymorphic locusagainst the reference sequence was selected. Third, onthe basis of the resequencing data of three accessions,sites with sufficient quality, called effective sites, wereused for SNP determination. Sufficient quality wasbased on the following criteria: 3 ≤ depth ≤ 50, withdepth calculated using data from each individual, andaverage mappable sites < 1.5. Candidate SNPs werethose with sequencing depth of 3 to 50 for each acces-sion and an average quality for the novel allele > 20. Toexclude SNP calling errors caused by incorrect mappingor indels, we did not call two adjacent SNPs that wereseparated by < 5 bp. The remaining SNPs were definedas high quality SNPs. We performed SNP calling foreach of the three accessions. These SNPs were used tocalculate the whole genome SNP number and for

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 11 of 14

Page 13: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

further analysis. In SOAPsnp, a sum rank test was usedto check the heterozygous sites of the called consensus.The read depth was used to filter the candidate SNPsand to obtain high accuracy heterozygous SNP sites. Fora diploid genome, a site is considered heterozygous ifeach allele is supported by at least three reads.SNP annotationThe localization of SNPs in coding regions, non-codingregions, start codons, stop codons and splice sites wasbased on annotation of gene models as provided by theSorghum bicolor Genome Database [59]. Gene familyannotation data of genes were also retrieved from thisdatabase.Short indel detectionFor short indel identification, mapped reads that met thepair-end requirements and contain alignment gaps inone end were necessary. We first mapped the paired-endreads to the reference sequence by allowing up to 10-bpgaps, and then merged these redundant pairs prior tolooking for indels. Subsequently, gaps that were sup-ported by at least three non-redundant paired-end readswere extracted. A potential indel was identified when thenumber of the un-gapped reads that crossed a potentialindel was no more than twice that of the gapped reads.For quality control, the final list of indels included onlythose identified on both strands by paired-end reads.Presence/absence variation detectionAccording to the principal of paired-end sequencing,one of the paired-end reads should normally be alignedonto the forward sequence, while the other should bealigned onto the reverse sequence. The distance betweenthe two aligned positions at the reference should be inaccordance with the insert size. Thus, two paired-endreads aligned to the genome should have a normalorientation and appropriate span. If the orientation orspan of the two paired-end reads is different fromexpectation for the alignments results, the region mightthen have structure variation. The abnormal paired-endalignments are analyzed by clustering and comparedwith the types of structure variation previously defined.In this manner, PAVs could be detected, with supportfrom at least three abnormal paired-end reads. In thisstudy, PAVs that were supported by at least six paired-end reads were thought to be of high quality andselected as the final PAVs.Copy number variation detectionWe detected CNVs by the following steps: (i) DNAsequences were separated into fragments according tothe depth of each base from the alignment results; (ii)we calculated the P-value for each fragment to estimateits probability to be a CNV; and (iii) fragments thatpassed the criteria (fragment length longer than 2 kb, P-value ≤0.35, mean depth less than 0.5 or more than 2.0)were kept as CNVs. The P-value was calculated as the

probability of each observed depth (d) under the distri-bution of a simulated Poisson distributed data set whoseexpected value (E(d)) equals the observed mean depth.If d < E(d), the P-value = P(x ≤ d) × 2, else P-value = P(x ≥ d) × 2. The credibility of a CNV increases as the P-value becomes smaller.Sweet-associated genes and pathway enrichment analysisUsing the BTx623 gene set as the reference, genes withnon-synonymous SNPs identified in the Keller and E-Tian lines were selected as the candidate gene set.These genes were then analyzed to remove those thatalso contain non-synonymous SNPs in Ji2731 and theremaining genes were considered the sweet-associatedgenes. Sweet-associated genes were mapped to KEGG[60] sorghum pathway data and were examined forwhether they are enriched in particular pathways basedon the hypergeometric distribution test. Fisher’s exacttest was used to identify pathways significantly enriched(P-value < 0.1) with sweet-associated genes.

Experimental validationTwo levels of data validation experiments were per-formed. For Sanger sequencing, primer sequences span-ning genomic regions predicted to contain geneticvariation were used to amplify genomic DNA templatesfrom the three sorghum lines. For PCR reactions, each10 μl reaction contained 50 ng of template DNA, 1.5mM Mg2+, 1.5 mM dNTPs, 1.5 μM of each primer, 1 μlof 10 × PCR buffer, and 1.25 U of Taq DNA polymerase(Promega, China Branch, Beijing). The PCR conditionswere 5 minutes at 95°C, followed by 30 cycles of 95°C/45 s, 58°C/45 s, and 72°C/90 s, ending with an extensionof 72°C/5 minutes. The PCR products were subse-quently analyzed using an ABI 3730 DNA analyzer.

Data availabilityThe raw sequence data in the fastq format from thisstudy were deposited in the NCBI Short Read Archive[61] under the accession number SRA046843. Theannotated assemblies of S. bicolor genetic variations,including SNPs, indels, structural variations, and CNVs,as well as novel sequence contigs, are freely availablefrom GigaScience [62].The data have also been deposited in DDBJ/EMBL/

GenBank under the accession numbers AHAO00000000(E-Tian cultivar); AHAP00000000 (Ji2731 cultivar);AHAQ00000000 (Keller cultivar). The versionsdescribed in this article are the first versionsAHAO01000000, AHAP01000000 and AHAQ01000000.

Additional material

Additional file 1: Tables S1 to S6, S8, and S11; legends for FiguresS1 and S2.

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 12 of 14

Page 14: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

Additional file 2: Figure S1.

Additional file 3: Table S7.

Additional file 4: Table S9.

Additional file 5: Table S10.

Additional file 6: Figure S2.

AbbreviationsBp: base pairs; CNV: copy number variation; EST: expressed sequence tag;indel: insertion and deletion; KEGG: Kyoto Encyclopedia of Genes andGenomes; PAV: presence/absence variation; PPR: pentatricopeptide repeat;SNP: single nucleotide polymorphism; UTR: untranslated region.

AcknowledgementsWe thank Professors Dongyun Hao and Shi-Jie Gao and Dr Wei-Bin Gu forthe seeds and information of the sorghum lines used for resequencing. Wealso thank other members of Hai-Chun Jing’s lab and the bioinformaticsteam at BGI-Shenzhen for assistance in analyzing and experimentallyverifying the data. Drs Kang Chong, Keping Ma, Sanwen Huang and JunWang are acknowledged for stimulating discussions during the initiationphase of this study. This work was funded by the grant of the KnowledgeInnovation Programme (KIP) of the Chinese Academy of Sciences to Hai-Chun Jing (KSCX2-YW-G-067).

Author details1Institute of Botany, Chinese Academy of Sciences, Beijing 100093, China.2Shenzhen Key Laboratory of Transomics Biotechnologies, BGI-Shenzhen,Shenzhen 518083, China. 3Temasek Life Sciences Laboratory Limited, 1Research Link National University of Singapore, Singapore 117604.

Authors’ contributionsSR, CML, and HCJ conceived and designed the experiments. LYZ, XSG, BH,and LJS performed the experiments. XSG, BH, LJS, YP, SSD, TFL, SJ, SR, andHCJ analyzed the data; XSG, SR, CML, and HCJ contributed reagents/materials/analysis tools. XSG, BH, and HCJ wrote the paper.

Competing interestsThe authors declare that they have no competing interests.

Received: 11 April 2011 Revised: 4 November 2011Accepted: 21 November 2011 Published: 21 November 2011

References1. Rooney WL, Blumenthal J, Bean B, Mullet JE: Designing sorghum as a

dedicated bioenergy feedstock. Biofuels Bioproducts Biorefining-Biofpr 2007,1:147-157.

2. Carpita NC, McCann MC: Maize and sorghum: genetic resources forbioenergy grasses. Trends Plant Sci 2008, 13:415-420.

3. Vermerris W: Survey of genomics approaches to improve bioenergy traitsin maize, sorghum and sugarcane. J Integr Plant Biol 2011, 53:105-119.

4. Ashley-Koch A, Yang Q, Olney RS: Sickle hemoglobin (HbS) allele andsickle cell disease: a HuGE review. Am J Epidemiol 2000, 151:839-845.

5. Kerem B, Rommens JM, Buchanan JA, Markiewicz D, Cox TK, Chakravarti A,Buchwald M, Tsui LC: Identification of the cystic fibrosis gene: geneticanalysis. Science 1989, 245:1073-1080.

6. Riordan JR, Rommens JM, Kerem B, Alon N, Rozmahel R, Grzelczak Z,Zielenski J, Lok S, Plavsic N, Chou JL, et al: Identification of the cysticfibrosis gene: cloning and characterization of complementary DNA.Science 1989, 245:1066-1073.

7. Rommens JM, Iannuzzi MC, Kerem B, Drumm ML, Melmer G, Dean M,Rozmahel R, Cole JL, Kennedy D, Hidaka N, et al: Identification of thecystic fibrosis gene: chromosome walking and jumping. Science 1989,245:1059-1065.

8. Muller HJ: Bar Duplication. Science 1936, 83:528-530.9. Bridges CB: The bar “gene” a duplication. Science 1936, 83:210-211.

10. Collard BC, Mackill DJ: Marker-assisted selection: an approach forprecision plant breeding in the twenty-first century. Philos Trans R SocLond B Biol Sci 2008, 363:557-572.

11. Ganal MW, Altmann T, Roder MS: SNP identification in crop plants. CurrOpin Plant Biol 2009, 12:211-217.

12. Langridge P, Fleury D: Making the most of ‘omics’ for crop breeding.Trends Biotechnol 2011, 29:33-40.

13. Schmid KJ, Sorensen TR, Stracke R, Torjek O, Altmann T, Mitchell-Olds T,Weisshaar B: Large-scale identification and analysis of genome-widesingle-nucleotide polymorphisms for mapping in Arabidopsis thaliana.Genome Res 2003, 13:1250-1257.

14. Feltus FA, Wan J, Schulze SR, Estill JC, Jiang N, Paterson AH: An SNPresource for rice genetics and breeding based on subspecies Indica andJaponica genome alignments. Genome Res 2004, 14:1812-1819.

15. Ossowski S, Schneeberger K, Clark RM, Lanz C, Warthmann N, Weigel D:Sequencing of natural strains of Arabidopsis thaliana with short reads.Genome Res 2008, 18:2024-2033.

16. Gore MA, Chia JM, Elshire RJ, Sun Q, Ersoz ES, Hurwitz BL, Peiffer JA,McMullen MD, Grills GS, Ross-Ibarra J, Ware DH, Buckler ES: A first-generation haplotype map of maize. Science 2009, 326:1115-1117.

17. Huang X, Wei X, Sang T, Zhao Q, Feng Q, Zhao Y, Li C, Zhu C, Lu T,Zhang Z, Li M, Fan D, Guo Y, Wang A, Wang L, Deng L, Li W, Lu Y,Weng Q, Liu K, Huang T, Zhou T, Jing Y, Li W, Lin Z, Buckler ES, Qian Q,Zhang QF, Li J, Han B: Genome-wide association studies of 14 agronomictraits in rice landraces. Nat Genet 2010, 42:961-967.

18. Kump KL, Bradbury PJ, Wisser RJ, Buckler ES, Belcher AR, Oropeza-Rosas MA,Zwonitzer JC, Kresovich S, McMullen MD, Ware D, Balint-Kurti PJ, Holland JB:Genome-wide association study of quantitative resistance to southernleaf blight in the maize nested association mapping population. NatGenet 2011, 43:163-168.

19. Clark RM, Schweikert G, Toomajian C, Ossowski S, Zeller G, Shinn P,Warthmann N, Hu TT, Fu G, Hinds DA, Chen H, Frazer KA, Huson DH,Schölkopf B, Nordborg M, Rätsch G, Ecker JR, Weigel D: Commonsequence polymorphisms shaping genetic diversity in Arabidopsisthaliana. Science 2007, 317:338-342.

20. McNally KL, Childs KL, Bohnert R, Davidson RM, Zhao K, Ulat VJ, Zeller G,Clark RM, Hoen DR, Bureau TE, Stokowski R, Ballinger DG, Frazer KA, Cox DR,Padhukasahasram B, Bustamante CD, Weigel D, Mackill DJ, Bruskiewich RM,Rätsch G, Buell CR, Leung H, Leach JE: Genomewide SNP variation revealsrelationships among landraces and modern varieties of rice. Proc NatlAcad Sci USA 2009, 106:12273-12278.

21. Wang L, Hao L, Li X, Hu S, Ge S, Yu J: SNP deserts of Asian cultivated rice:genomic regions under domestication. J Evol Biol 2009, 22:751-761.

22. Lai J, Li R, Xu X, Jin W, Xu M, Zhao H, Xiang Z, Song W, Ying K, Zhang M,Jiao Y, Ni P, Zhang J, Li D, Guo X, Ye K, Jian M, Wang B, Zheng H, Liang H,Zhang X, Wang S, Chen S, Li J, Fu Y, Springer NM, Yang H, Wang J, Dai J,Schnable PS, Wang J: Genome-wide patterns of genetic variation amongelite maize inbred lines. Nat Genet 2010, 42:1027-1030.

23. van Heerwaarden J, Doebley J, Briggs WH, Glaubitz JC, Goodman MM, deJesus Sanchez Gonzalez J, Ross-Ibarra J: Genetic signals of origin, spread,and introgression in a large sample of maize landraces. Proc Natl AcadSci USA 2011, 108:1088-1092.

24. Borevitz JO, Liang D, Plouffe D, Chang HS, Zhu T, Weigel D, Berry CC,Winzeler E, Chory J: Large-scale identification of single-featurepolymorphisms in complex genomes. Genome Res 2003, 13:513-523.

25. Kumar R, Qiu J, Joshi T, Valliyodan B, Xu D, Nguyen HT: Single featurepolymorphism discovery in rice. PLoS One 2007, 2:e284.

26. Bruce M, Hess A, Bai J, Mauleon R, Diaz MG, Sugiyama N, Bordeos A,Wang GL, Leung H, Leach JE: Detection of genomic deletions in riceusing oligonucleotide microarrays. BMC Genomics 2009, 10:129.

27. Salathia N, Lee HN, Sangster TA, Morneau K, Landry CR, Schellenberg K,Behere AS, Gunderson KL, Cavalieri D, Jander G, Queitsch C: Indel arrays:an affordable alternative for genotyping. Plant J 2007, 51:727-737.

28. Fu H, Dooner HK: Intraspecific violation of genetic colinearity and itsimplications in maize. Proc Natl Acad Sci USA 2002, 99:9573-9578.

29. Brunner S, Fengler K, Morgante M, Tingey S, Rafalski A: Evolution of DNAsequence nonhomologies among maize inbreds. Plant Cell 2005, 17:343-360.

30. Springer NM, Ying K, Fu Y, Ji T, Yeh CT, Jia Y, Wu W, Richmond T, Kitzman J,Rosenbaum H, Iniguez AL, Barbazuk WB, Jeddeloh JA, Nettleton D,Schnable PS: Maize inbreds exhibit high levels of copy number variation

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 13 of 14

Page 15: Genome-wide patterns of genetic variation in sweet and grain sorghum (Sorghum bicolor) · 2017-08-24 · RESEARCH Open Access Genome-wide patterns of genetic variation in sweet and

(CNV) and presence/absence variation (PAV) in genome content. PLoSGenet 2009, 5:e1000734.

31. Belo A, Beatty MK, Hondred D, Fengler KA, Li B, Rafalski A: Allelic genomestructural variations in maize detected by array comparative genomehybridization. Theor Appl Genet 2009, 120:355-367.

32. DeBolt S: Copy number variation shapes genome diversity in Arabidopsisover immediate family generational scales. Genome Biol Evol 2010,2:441-453.

33. Harlan JR, deWet JWJ: A simplified classification of sorghum. Crop Sci1972, 12:172-176.

34. Vietor DM, Miller FR: Assimilation, partitioning, and nonstructuralcarbohydrate in sweet compared with grain sorghum. Crop Sci 1990,30:1109-1115.

35. Murray SC, Sharma A, Rooney WL, Klein PE, Mullet JE, Mitchell SE,Kresovich S: Genetic improvement of sorghum as a biofuel feedstock: I.QTL for stem sugar and grain nonstructural carbohydrates. Crop Sci 2008,48:2165-2179.

36. Murray SC, Rooney WL, Mitchell SE, Sharma A, Klein PE, Mullet JE,Kresovich S: Genetic improvement of sorghum as a biofuel feedstock: II.QTL for stem and leaf structural carbohydrates. Crop Sci 2008,48:2180-2193.

37. Ritter KB, McIntyre CL, Godwin ID, Jordan DR, Chapman SC: An assessmentof the genetic relationship between sweet and grain sorghums, withinSorghum bicolor ssp bicolor (L.) Moench, using AFLP markers. Euphytica2007, 157:161-176.

38. Paterson AH: Genomics of sorghum. Int J Plant Genomics 2008,2008:362451.

39. Draye X, Lin YR, Qian XY, Bowers JE, Burow GB, Morrell PL, Peterson DG,Presting GG, Ren SX, Wing RA, Paterson AH: Toward integration ofcomparative genetic, physical, diversity, and cytomolecular maps forgrasses and grains, using the sorghum genome as a foundation. PlantPhysiol 2001, 125:1325-1341.

40. Paterson AH, Bowers JE, Bruggmann R, Dubchak I, Grimwood J,Gundlach H, Haberer G, Hellsten U, Mitros T, Poliakov A, Schmutz J,Spannagl M, Tang H, Wang X, Wicker T, Bharti AK, Chapman J, Feltus FA,Gowik U, Grigoriev IV, Lyons E, Maher CA, Martis M, Narechania A, Otillar RP,Penning BW, Salamov AA, Wang Y, Zhang L, Carpita NC, et al: TheSorghum bicolor genome and the diversification of grasses. Nature 2009,457:551-556.

41. Wang ML, Zhu C, Barkley NA, Chen Z, Erpelding JE, Murray SC, Tuinstra MR,Tesso T, Pederson GA, Yu J: Genetic diversity and population structureanalysis of accessions in the US historic sweet sorghum collection. TheorAppl Genet 2009, 120:13-23.

42. SOAP.. [http://soap.genomics.org.cn].43. Li R, Li Y, Fang X, Yang H, Wang J, Kristiansen K: SNP detection for

massively parallel whole-genome resequencing. Genome Res 2009,19:1124-1132.

44. Yoon S, Xuan Z, Makarov V, Ye K, Sebat J: Sensitive and accuratedetection of copy number variants using read depth of coverage.Genome Res 2009, 19:1586-1592.

45. Phytozome Sorghum bicolor (Cereal grass).. [http://www.phytozome.net/sorghum].

46. MaizeGDB.. [http://www.maizegdb.org].47. Rudrabhatla P, Reddy MM, Rajasekharan R: Genome-wide analysis and

experimentation of plant serine/threonine/tyrosine-specific proteinkinases. Plant Mol Biol 2006, 60:293-319.

48. Thomas JH: Adaptive evolution in two large families of ubiquitin-ligaseadapters in nematodes and plants. Genome Res 2006, 16:1017-1030.

49. Hardie DG: Plant protein serine/threonine kinases: classification andfunctions. Annu Rev Plant Physiol Plant Mol Biol 1999, 50:97-131.

50. Frazer KA, Eskin E, Kang HM, Bogue MA, Hinds DA, Beilharz EJ, Gupta RV,Montgomery J, Morenzoni MM, Nilsen GB, Pethiyagoda CL, Stuve LL,Johnson FM, Daly MJ, Wade CM, Cox DR: A sequence-based variationmap of 8.27 million SNPs in inbred mouse strains. Nature 2007,448:1050-1053.

51. Kim S, Plagnol V, Hu TT, Toomajian C, Clark RM, Ossowski S, Ecker JR,Weigel D, Nordborg M: Recombination and linkage disequilibrium inArabidopsis thaliana. Nat Genet 2007, 39:1151-1155.

52. Hinds DA, Stuve LL, Nilsen GB, Halperin E, Eskin E, Ballinger DG, Frazer KA,Cox DR: Whole-genome patterns of common DNA variation in threehuman populations. Science 2005, 307:1072-1079.

53. Schnable PS, Ware D, Fulton RS, Stein JC, Wei F, Pasternak S, Liang C,Zhang J, Fulton L, Graves TA, Minx P, Reily AD, Courtney L, Kruchowski SS,Tomlinson C, Strong C, Delehaunty K, Fronick C, Courtney B, Rock SM,Belter E, Du F, Kim K, Abbott RM, Cotton M, Levy A, Marchetto P, Ochoa K,Jackson SM, Gillam B, et al: The B73 maize genome: complexity, diversity,and dynamics. Science 2009, 326:1112-1115.

54. Stahl EA, Dwyer G, Mauricio R, Kreitman M, Bergelson J: Dynamics ofdisease resistance polymorphism at the Rpm1 locus of Arabidopsis.Nature 1999, 400:667-671.

55. McDowell JM, Dhandaydham M, Long TA, Aarts MG, Goff S, Holub EB,Dangl JL: Intragenic recombination and diversifying selection contributeto the evolution of downy mildew resistance at the RPP8 locus ofArabidopsis. Plant Cell 1998, 10:1861-1874.

56. Winkel-Shirley B: Flavonoid biosynthesis. A colorful model for genetics,biochemistry, cell biology, and biotechnology. Plant Physiol 2001,126:485-493.

57. Yu CK, Springob K, Schmidt J, Nicholson RL, Chu IK, Yip WK, Lo C: Astilbene synthase gene (SbSTS1) is involved in host and nonhostdefense responses in sorghum. Plant Physiol 2005, 138:393-401.

58. Shiringani AL, Frisch M, Friedt W: Genetic mapping of QTLs for sugar-related traits in a RIL population of Sorghum bicolor L. Moench. TheorAppl Genet 2010, 121:323-336.

59. Sorghum bicolor genome.. [http://www.plantgdb.org/SbGDB/].60. KEGG: Kyoto Encyclopedia of Genes and Genomes.. [http://www.genome.

jp/kegg/].61. Sequence Read Archive.. [http://www.ncbi.nlm.nih.gov/sra].62. Zheng LY, Guo XS, He B, Sun LJ, Peng Y, Dong SS, Liu TF, Jiang S,

Ramachandran S, Liu CM, Jing H-C: Genome data from sweet and grainsorghum (Sorghum bicolour). GigaScience 2011 [http://dx.doi.org/10.5524/100012].

doi:10.1186/gb-2011-12-11-r114Cite this article as: Zheng et al.: Genome-wide patterns of geneticvariation in sweet and grain sorghum (Sorghum bicolor). Genome Biology2011 12:R114.

Submit your next manuscript to BioMed Centraland take full advantage of:

• Convenient online submission

• Thorough peer review

• No space constraints or color figure charges

• Immediate publication on acceptance

• Inclusion in PubMed, CAS, Scopus and Google Scholar

• Research which is freely available for redistribution

Submit your manuscript at www.biomedcentral.com/submit

Zheng et al. Genome Biology 2011, 12:R114http://genomebiology.com/2011/12/11/R114

Page 14 of 14