23
Chengdu life baseline technology co., LTD 成都生命基线科技有限公司 ChIP-Seq 项目结题报告 项目编号:************

Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

  • Upload
    others

  • View
    20

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

ChIP-Seq项项目目结结题题报报告告

项目编号:************

Page 2: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

144456677777777889999999

1010111112121212

CONTENTS

CONTENTS1 生物实验流程

1.1 ChIP免疫沉淀实验流程1.2 ChIP文库构建流程

2 信息分析流程2.1 数据过滤质控数据产出统计结果文件列表

2.2 与参考序列比对2.2.1 比对结果统计比对结果统计结果文件列表

2.2.2 基因组测序深度累积分布Sample1Sample2

2.2.3 基因测序深度分布Sample1Sample2

2.3 Peak 分析2.3.1 Peak扫描

Peak信息统计结果文件列表

2.3.2 Peak长度分布Sample1Sample2

2.3.3 Peak深度分布Sample1Sample2

2.4 Peak 注释2.4.1 peak在基因功能元件上的分布Sample1Sample2

1 / 23

项目编号:************

Page 3: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

131313131414141414141515151515151515151516161616161717171718192121

2.4.2 Peak 相关基因分析结果文件列表

2.4.3 peak相关基因的GO功能显著性富集分析Sample1Sample2结果文件列表

2.4.4 peak相关基因的Pathway功能显著性富集分析结果文件列表

2.5 鉴定样品间差异Peak结果文件列表

2.6 样品间差异Peak注释2.6.1 差异Peak的基因功能元件分布Sample1-vs-Sample2

2.6.2 差异Peak相关基因分析结果文件列表

2.6.3 差异Peak相关基因的GO功能显著性富集分析结果文件列表

2.6.4 差异Peak相关基因的Pathway功能显著性富集分析结果文件列表

2.7 Motif分析结果文件列表

3.1 生物信息分析3.1.1 原始序列数据(Raw data)3.1.2 数据质控和过滤

3.1.2.1 碱基组成和测序质量分析3.1.2.2 数据过滤

3.1.3 与参考序列比对3.1.4 全基因组Peak扫描

3.1.4.1 Peak calling3.1.4.2 UCSC Genome Browser使用说明3.1.4.3 Peak相关基因的注释分析

3.1.5 样品间差异Peak分析3.2 方法描述

2 / 23

项目编号:************

Page 4: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

21212121222222

3.2.1 soap23.2.2 BWA3.2.3 Peak callers3.2.4 样品间Peak差异分析

3.3 数据库3.4 参考文献3.5 名词解释

3 / 23

项目编号:************

Page 5: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

一、工作流程一、工作流程

1 生物实验流程生物实验流程

染色体免疫共沉淀(ChIP, chromatin immunoprecipitation)是一种用于研究蛋白质与DNA的体内相互作用的经典实验技术。采用特异性抗体将目的蛋白进行免疫沉淀,由此可以把目的蛋白所结合的基因组DNA片段也富集下来。通过与高通量测序技术的结合,对ChIP后的DNA产物进行测序分析,从全基因组范围内寻找目的蛋白的DNA结合位点,以高效率的测序手段得到高通量的数据结果。

1.1 ChIP免疫沉淀实验流程免疫沉淀实验流程

目前主要有两种不同的ChIP实验方法,大致流程如下(均以细胞样品的处理过程为例):

Cross-liking Chromatin Immunoprecitation (X-ChIP)

1.甲醛处理细胞,使 DNA-protein 的相互结合作用被交联固定。

2.裂解细胞,得到全细胞裂解液。

3.超声处理,将基因组 DNA 打断至 100-500bp。

4.抗体免疫沉淀:在细胞裂解液中加入一抗和 beads,并进行孵育。

5.采用合适的实验条件进行洗脱,并解交联。

6.通过 qPCR 对 ChIP 结果进行验证。

7.准备好的 ChIP 后的 DNA 样品可以用于 ChIP Sequencing 建库。

Native Chromatin Immunoprecipitation (N-ChIP)

1.通过非变性的方式得到核裂解液。

2.微球菌核酸酶(Micrococcal nuclease)消化染色质,得到单核小体或核小体寡聚体。

3.抗体免疫沉淀:在细胞裂解液中前后加入一抗和 beads,并进行孵育。

4. DNA 分离。

5.通过 qPCR 对 ChIP 结果进行验证。

6.准备好的 ChIP 后的 DNA 样品可以用于 ChIP Sequencing 建库。

1.2 ChIP文库构建流程文库构建流程

文库构建流程主要有以下步骤:

1. DNA片段末端修复、3’端加A碱基,连接测序接头(详细步骤请参考Illumina公司Paired-End DNA SamplePrep kit)。

2. PCR扩增及DNA产物的片段大小选择(一般为100-300bp,包括接头序列在内)。

3.合格的文库用于上机测序。

流程如下:

4 / 23

项目编号:************

Page 6: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

2 信息分析流程信息分析流程

由Illumina测序产生的数据通过质量控制以及过滤,借助比对工具与参考基因组比对。提取比对上唯一 位置的序列,结果以bed文件存放,用bed文件做后续信息分析,包括read的分析和peak扫描。在全基因组范围对peak进行扫描,对于扫描到的peak,对其相关联的基因进行分析,包括GO以及Pathway富集分析。另外对于多样品,还可以做样品间差异Peak的鉴定。信息分析流程如下:

5 / 23

项目编号:************

Page 7: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

二、分析结果二、分析结果

2.1 数据过滤质控数据过滤质控

测序完成后,对原始数据进行去接头、去除低质量数据等处理,得到可用数据并统计产量。一条序列如符合以下任一条件则会被作为不合格序列去除:

1.序列含有adapter接头;

2. N碱基含量超过10%序列长度;

3.质量值低于20的碱基含量超过50%序列长度。

数据产出统计数据产出统计

样品名样品名 序列长度序列长度 序列总数序列总数 碱基总数碱基总数 %GC Q20 Q30

Sample1 - - - - - -

Sample2 - - - - - -

6 / 23

项目编号:************

Page 8: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

结果文件列表结果文件列表

2.2 与参考序列比对与参考序列比对2.2.1 比对结果统计比对结果统计

将可用数据与所选参考基因组序列进行比对,设定允许不超过2个碱基的错配,其中比对到基因组上唯一位置的序列(唯一比对序列)将用于后续的信息分析。

比对结果统计比对结果统计

样品名样品名 总序列数总序列数 比对序列数比对序列数 比对率比对率 (%) 唯一比对序列数唯一比对序列数 唯一比对率唯一比对率 (%)

Sample1 - - - - -

Sample2 - - - - -

结结果果文文件件列列表表

比对结果

2.2.2 基基因因组组测测序序深深度度累累积积分分布布

以比对后得到的唯一比对序列为分析对象,分析其在参考基因组上的覆盖分布,统计基因组位点的深度信息,得到基因组上测序深度统计结果。

Sample1

Sample1基基因因组组测测序序深深度度累累积积分分布布图图

Sample2

7 / 23

Sample1

项目编号:************

Page 9: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

Sample2基基因因组组测测序序深深度度累累积积分分布布图图

2.2.3 基基因因测测序序深深度度分分布布

以比对后得到的唯一比对序列为分析对象,分析其在基因本体区间及上下游2k区间内的深度分布,得到基因及上下游区间深度分布结果。

Sample1

8 / 23

Sample2

Sample1

项目编号:************

Page 10: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

Sample1基基因因及及上上下下游游测测序序深深度度分分布布图图

Sample2

2.3 Peak 分析分析2.3.1 Peak扫描扫描

基于一定的分析模型在全基因组范围进行peak(ChIP Sequencing富集区域)扫描,得到peak在基因组上的位置信息,peak区域序列信息等。peak结果以wiggle文件格式存放,可上传至UCSC查看,详细步骤参见帮助文档“UCSCGenome Browser使用说明”。

Peak信息统计信息统计

样品名样品名 Peak数数 Peak总长度总长度 Peak平均长度平均长度 Peak总序列深度总序列深度 Peak平均序列深度平均序列深度 基因组比例基因组比例 (%)

Sample1 - - - - - -

Sample2 - - - - - -

结结果果文文件件列列表表

Peak统计

2.3.2 Peak长长度度分分布布

peak的长度是peak区间的重要信息之一,分析结果根据peak结果绘制得到每一个样品的peak长度分布。

以所有peak为分析对象进行绘图,x轴为peak的长度,y轴为特定长度peak分布数值。

Sample1

9 / 23

Sample2基因及上下游测序深度分布图

Sample2

项目编号:************

Page 11: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

Sample1peak长长度度分分布布示示意意图图

Sample2

Sample2 peak长长度度分分布布示示意意图图

2.3.3 Peak深度分布深度分布

peak区域所含序列数也是peak区间的重要信息之一。分析结果根据peak结果绘制得到每一个样品的peak所含序列

10 / 23

Sample1

Sample2

项目编号:************

Page 12: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

数分布图形。

以所有peak为分析对象进行绘图,x轴为peak的区域内序列数,y轴为特定序列数下peak的累积分布比例值。

Sample1

Sample1 peak深深度度分分布布示示意意图图

Sample2

11 / 23

Sample1

Sample2

项目编号:************

Page 13: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

Sample2 peak深深度度分分布布示示意意图图

2.4 Peak 注注释释2.4.1 peak在在基基因因功功能能元元件件上上的的分分布布

以饼图表示Peak在基因的exon、intron、upstream、downstream、intergenic等功能元件的分布特征。

Sample1

Sample1 peak基基因因功功能能元元件件分分布布示示意意图图

Sample2

12 / 23

Sample1

项目编号:************

Page 14: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

Sample2 peak基基因因功功能能元元件件分分布布示示意意图图

2.4.2 Peak 相相关关基基因因分分析析

通过找到与目的蛋白相结合区域(Peak区域)在基因组上的定位及其与那些基因有关,从一定程度上表示了目的蛋白或特定组蛋白修饰可能调控的靶基因区域。

结结果果文文件件列列表表Sample1

Sample2

2.4.3 peak相相关关基基因因的的GO功功能能显显著著性性富富集集分分析析

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、所处的细胞位置(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。

Sample1

13 / 23

Sample2

项目编号:************

Page 15: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

Sample1 peak相相关关基基因因GO富富集集示示意意图图

Sample2

Sample2 peak相相关关基基因因GO富富集集示示意意图图

结结果果文文件件列列表表Sample1

Sample2

2.4.4 peak相相关关基基因因的的Pathway功功能能显显著著性性富富集集分分析析

在生物体内,不同基因相互协调行使其生物学,基于 Pathway 的分析有助于更进一步了解基因的生物学功能。KEGG 是有关 Pathway 的主要公共数据库,Pathway 显著性富集分析以 KEGG Pathway 为单位,应用超几何检验,找出与整个基因组背景相比,在 peak相关基因中显著性富集的 Pathway。

结结果果文文件件列列表表Sample1

Sample2

2.5 鉴鉴定定样样品品间间差差异异Peak

基于MAnorm工具,对两个样品进行差异分析,确定存在样品间差异修饰的区间。

结结果果文文件件列列表表

14 / 23

项目编号:************

Page 16: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

Sample1-vs-Sample2

2.6 样样品品间间差差异异Peak注注释释2.6.1 差差异异Peak的的基基因因功功能能元元件件分分布布

以饼图表示Peak在基因的exon、intron、upstream、downstream、intergenic等功能元件的分布特征。

Sample1-vs-Sample2

Sample1-vs-Sample2 peak基基因因功功能能元元件件分分布布示示意意图图

2.6.2 差差异异Peak相相关关基基因因分分析析结结果果文文件件列列表表Sample1-vs-Sample2

2.6.3 差差异异Peak相相关关基基因因的的GO功功能能显显著著性性富富集集分分析析结结果果文文件件列列表表Sample1-vs-Sample2

2.6.4 差差异异Peak相相关关基基因因的的Pathway功功能能显显著著性性富富集集分分析析结结果果文文件件列列表表Sample1-vs-Sample2

2.7 Motif分分析析

基因表达起始于多种蛋白因子结合于特异的非编码DNA序列,非编码区域的主要研究方向之一即是Motif研究。基因表达调控机制研究是生物学研究的重点内容,鉴定DNA调控元件尤其是DNA Motif,对于基因表达调控机制研究具有重要意义。

15 / 23

Sample1-vs-Sample2

项目编号:************

Page 17: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

结果文件列表结果文件列表Sample1_Motif_scan

Sample1_Motif_mast

Sample2_Motif_scan

Sample2_Motif_mast

三三、、帮帮助助文文档档

3.1 生物信息分析生物信息分析3.1.1 原始序列数据原始序列数据 (Raw data)

测序得到的原始图像数据经base calling转化为序列数据,我们称之为raw data或raw reads,结果以FASTQ文件格式存储,包含reads的序列以及reads的测序质量。在FASTQ格式文件中每个read由四行描述,如下:

@A80GVTABXX:4:1:2587:1979#ACAGTGAT/1

NTTTGATATGTGTGAGGACGTCTGCAGCGTCACCTTTATCGGCCATGGT

+

BTTMKZXUUUdddddddddddddddddddddddddddadddddd^WYYU

每个序列共有4行,第1行和第3行是序列名称(有的fq文件为了节省存储空间会省略第三行“+”后面的序列名称),由测序仪产生;第2行是序列;第4行是序列的测序质量,每个字符对应第2行每个碱基,第四行每个字符对应的ASCII值减去64,即为该碱基的测序质量值,比如c对应的ASCII值为99,那么其对应的碱基质量值是35。从Illumina GA

Pipeline v1.5开始,碱基质量值范围为2到41。表1 为Illumina HiSeqTM 2000测序错误率与测序质量值简明对应关系。如果测序错误率用E表示,碱基质量值用sQ表示,则有下列关系:

Table 1. Illumina HiSeqTM 2000测序错误率与测序质量值简明对应关系

Sequencing error rate Sequencing quality value Character

5% 13 M

1% 20 T

0.1% 30 ^

3.1.2 数据质控和过滤数据质控和过滤

为了保证数据质量,要在信息分析前对原始数据进行质控和过滤。

3.1.2.1 碱基组成和测序质量分析碱基组成和测序质量分析

将每个样本测序得到的raw reads进行碱基组成和碱基质量分析,可以判断测序质量的好坏。如图1,曲线A和曲线T分布一致,碱基整体分布均一。图2中有较高低质量碱基,如果出现过多小于20的低质量碱基,说明测序质量较差,需要重测。

16 / 23

项目编号:************

Page 18: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

图1 原始数据碱基组成平衡的例子。X轴是分布在reads上的碱基位置,Y轴是各位置相应碱基的百分比。此图中,曲线

A和T,曲线C和G分布一致,碱基组成分布平衡。

图2 测序质量值较好的例子。X轴在分布在reads上的碱基位置,Y轴是各位置上碱基质量值的范围。此图中,碱基质量

基本都在30以上。

3.1.2.2 数据过滤数据过滤

测序完成后,对原始数据进行去污染,去接头及去除低质量数据处理,统计clean data产量。一条序列如符合以下任一条件则会被判定为不合格序列予以去除:

1)序列含有adapter接头;

2)N碱基含量超过10%序列长度;

3)质量值低于20的碱基含量超过50%序列长度。

过滤后的数据称为“clean data”,作为后续分析的数据。

3.1.3 与参考序列比对与参考序列比对

与参考基因组比对与参考基因组比对

使用比对软件将clean data与目的物种基因组序列进行比对,允许不超过2个碱基的错配,其中比对到基因组上唯一位置的reads(唯一比对reads)将用于后续的信息分析。

基因组深度分布基因组深度分布

比对后得到的唯一比对序列为分析对象,分析其在参考基因组上的覆盖分布,统计基因组位点的深度信息,得到基因组上测序深度统计结果。

3.1.4 全基因组全基因组Peak扫描扫描3.1.4.1 Peak calling

根据不同的实验目标以及关注的蛋白特征,借助相关的软件,基于一定的分析模型在全基因范围进行peak(ChIPSequencing富集区域)扫描,得到Peak在基因组上的位置信息peak区域序列信息等。

17 / 23

项目编号:************

Page 19: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

3.1.4.2 UCSC Genome Browser使用说明使用说明

UCSC Genome Browser 由美国加州大学Santa Cruz分校(UCSC)的生物分子科学与工程研究中心(the Centerfor Biomolecular Science and Engineering,CBSE)的Genome Bioinformatics Group进行维护。UCSC提供大量物种的基因组参考序列,包含大量基因注释信息与比较基因组学信息。

1)打开UCSC的主页,点击左侧的“genome browser” 以打开下述页面:

2)选择物种,并填写相关信息。点击“submit”提交后进入下述页面(关于所选择的物种基因组特定区域的简要信息):

3)点击白色窗口下的“add custom tracks” ,进入下述页面后可以将自己的ChIP Sequencing测序数据上传(文件格式为.wig)

4)数据上传完毕后将以图形式的方式将基因组上特定区域的ChIP Sequencing数据的peak分布显示出来

18 / 23

项目编号:************

Page 20: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

关于UCSC的更多细节:http://genome.ucsc.edu

3.1.4.3 Peak相关基因的注释分析相关基因的注释分析

通过找到与目的蛋白相结合区域(Peak区域)在基因组上的定位及其与哪些基因有关,从一定程度上表示了目的蛋白或特定组蛋白修饰可能调控的靶基因区域。

Peak相关基因的相关基因的GO功能显著富集分析功能显著富集分析

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、所处的细胞位置(cellular component)、参与的生物过程(biologicalprocess)。GO的基本单位是term(词条、节点),每个term都对应一个属性。

GO富集分析首先把所有Peak相关基因向Gene Ontology数据库(http://www.geneontology.org/)的各term映射,计算每个term的基因数目,然后应用超几何检验,找出与整个基因组背景相比,在Peak相关基因中显著富集的GO条目,其计算公式为:

其中,N为基因组中具有GO注释的基因数目;n为N中peak 相关基因的数目;M为基因组中注释为某特定GO term的基因数目;m为注释为某特定GO term的peak相关基因数目。计算得到的pvalue通过Bonferroni校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的GO term定义为在pea相关基因中显著富集的GO term。通过GO功能显著性富集分析能确定peak相关基因行使的主要生物学功能。

如下表所示:immune response 为在peak相关基因中最显著富集的一个GO-term。

19 / 23

项目编号:************

Page 21: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

上表各列意义如下:

Gene Ontology term GO term的名称

Cluster frequency 注释到该GO term下的Peak相关基因占所有Peak相关基因中有此Ontology注释基因的百分比

Genome frequency of use 注释到该GO term 下的参考基因占参考基因中有此Ontology注释基因的百分比

Corrected P-value 校正后的P值

Peak相关基因的相关基因的Pathway富集分析富集分析

在生物体内,不同基因相互协调行使其生物学,基于Pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关Pathway的主要公共数据库,Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在peak相关基因中显著性富集的Pathway。该分析的计算公式同GO功能显著性富集分析,在这里N为芯片中具有Pathway注释的基因数目;n为N中peak相关基因的数目;M为芯片中注释为某特定Pathway的基因数目;m为注释为某特定Pathway的peak相关基因数目。Qvalue≤0.05的Pathway定义为在peak相关基因中显著富集的Pathway。通过Pathway显著性富集能确定peak相关基因参与的最主要生化代谢途径和信号转导途径。如下表所示:

上表各列意义如下:

# 序号

Pathway 通路名

Peak related genes with pathway annotation (2085) 注释到该通路的peak相关基因的数目

All genes with pathway annotation (8986) 注释到该通路的所有基因的数目

Pvalue 超几何检验的P值

Qvalue Q值(Q≤0.05为在peak相关基因中显著富集的Pathway)

Pathway ID KEGG数据库中的Pathway ID

20 / 23

项目编号:************

Page 22: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

注:Qvalue≤0.05的表示Peak相关基因在该Pathway显著富集

Peak相关基因的Pathway显著性富集分析不但得到最有意义的Pathway列表,点击其中的Pathway链接还将得到KEGG数据库中Pathway的详细信息,如点击上表第一列第五行的Prostate cancer,可以看到如下图所示的详细信息,有相关基因参与的用红色框表示,当鼠标指到某一具体框时,在左上角会显示该框对应的KO号以及KO号所对应的基因。如下图所示:

3.1.5 样品间差异样品间差异Peak分析分析

根据每个样品得到的peak及peak中reads支持情况,基于回归模型实现定性与定量的差异peak分析。在差异peak明确基础上,对其进行功能元件、GO及Pathway的注释。GO及Pathway可见前述介绍。

3.2 方法描述方法描述3.2.1 soap2

SOAP2[3]是短序列分析工具SOAP (Short Oligonucleotide Analysis Package)包的一个成员,它是SOAP的升级版,其特点在于使海量数据的比对更快、更准确。在流程中,用SOAP2将clean reads比对到参考序列上,最多允许2个错配。

3.2.2 BWA

可用BWA做基因组比对分析。BWA是一种高效比对短序列的软件,其精确度较高,比对速度快及较低的错误率,流程中允许的错配数为2,输出结果以sam格式存放。

sam格式详细信息可参考:http://samtools.sourceforge.net/SAM1.pdf

bwa参数及应用可参考网址:http://bio-bwa.sourceforge.net/bwa.shtml

3.2.3 Peak callers

MACS (Model-based Analysis for ChIP-Seq)简介:将基因组上的候选peak区延伸,得到一定长度的建模区域,根据此区域中所有唯一比对reads的情况,使用Poisson分布模型进行检验,计算候选peak区域的p-value,若p-value<1e-05,则认为该区域是一个peak。MACS适合分析大部分如具有序列特性的转录因子产生的“尖峰(sharppeak)”。

SICER(spatial clustering approach for the identification of ChIP-enriched regions)简介:先将基因组划分为不存在overlap的window,基于reads富集程度的泊松分布对每个window进行打分。全基因组扫描所有window,将不是随机出现的进行聚类形成islands。对islands进行P value和FDR计算,据此筛选显著的islands。SICER适合与鉴定由组蛋白和染色质结合蛋白产生的“弥散型的峰(broad peak)”。

3.2.4 样品间样品间Peak差异分析差异分析

MAnorm简介:基于两个样品中的common peak具有基本等同的reads支持数,建立M值与A值的回归模型,而后通过校正M与A值消除测序等bias等的影响,再基于贝叶斯模型计算p-value,最终根据M与p-value判定差异peak。

21 / 23

项目编号:************

Page 23: Genebang Project Reportstorage.genebang.com/file/201802/editor1262_Seqmore_ChIP... · 2020. 3. 31. · 2.4.3 peak相关基因的GO功能显著性富集分析 Sample1 Sample2 结果文件列表

Chengdu life baseline technology co., LTD

成都生命基线科技有限公司

3.3 数据库数据库

分析中用到的参考基因组可以由客户提供,也可以从UCSC(http://hgdownload.cse.ucsc.edu/downloads.html )上下载现有的物种对应参考序列,如人、小鼠等。

3.4 参考文献参考文献

[1] Kharchenko PV, Tolstorukov MY, Park PJ. Design and analysis of ChIP-seq experiments for DNA- bindingproteins. Nature Biotechnology, 2008, 26: 1351-1359

[2] Kidder B L, Hu G, Zhao K. ChIP-Seq: technical considerations for obtaining high-quality data[J]. Natureimmunology, 2011, 12(10): 918-922

[3] Ji HK, Ma WX, Johnson DS, et al. An integrated software system for analyzing ChIP-chip and ChIP-seq data.Nature Biotechnology, 2008, 26: 1293-1300

[4] Li R, Li Y, et al. SOAP: short oligonucleotide alignment program. 2008, 24: 713-4

[5] Portales-Casamar E, Thong JS, Kwon AT, et al. The greatly expanded open-access database of transcriptionfactor binding profile. Nucleic Acids Research,2010, 38: D105-D110

[6] Shao Z, Zhang Y, et al. MAnorm: a robust model for quantitative comparison of ChIP-Seq data sets. GenomeBiology, 2012, 13: R16

[7] Visel A, Blow MJ, et al. ChIP-seq accurately predicts tissue-specific activity of enhancers. Nature, 2009, 457:854-858

[8] Zang C, Schones DE, Zeng C,Cui K, Zhao K, et al.(2009) A clustering approach for identification of enricheddomains from histone modification ChIP-Seq data. Bioinformatics 25:1952-1958.

[9] Zhang Y, Liu T, Meyer CA, et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biology, 2008, 9:R137

3.5 名词解释名词解释

Chip-seq

染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)也称结合位点分析法,将ChIP与第二代测序技术相结合为ChIP-Seq

Raw reads

测序得到的原始图像数据经base calling转化为序列数据,我们称为raw data或raw reads,结果以FASTQ文件格式存储

Clean reads

过滤掉不合格reads后的数据,用于后续比对分析

Unique mapping reads

比对到参考序列上唯一位置的reads

Peak

基因组上Reads富集区域

Peak相关基因相关基因

根据Peak在基因组上的区域信息及基因的注释信息,得到关于Peak相关基因

22 / 23

项目编号:************