菜单

【中英文题目】

An evaluation of the PacBio RS platform for sequencing and de novo assembly of a chloroplast genome

通过对叶绿体基因组的测序及从头组装对PacBio RS测序平台进行评估

【基本信息】

期刊:BMC GENOMICS

IF:4.276

年份:2013

【摘要】

背景二代测序技术已经可以为越来越多的非模式生物在全基因组水平上描述序列特征,但是,测序读长较短,基因覆盖区具有偏向性,后期组装繁琐PacBio RS测序平台增加了reads长度,基因覆盖区无偏向性,因此,最终产生的基因组序列就拥有较少的gap和较长的contig。但是,三代测序的缺点是成本和错误率都较高本次研究通过Potentilla micrantha(委陵菜甘菊)叶绿体基因组的测序以及从头组装从而对PacBio RS测序平台进行评价

结果:从叶绿体基因组中一共得到28,638PacBio RS reads,每个reads的平均长度为1,902bp, 测序深度320×对于单个contigPacBio RS测序数据完全覆盖了叶绿体基因组的154,959bp (100% coverage),相比Illumina七个contig(90.59% coverage),而且,对于GC富集区域也并没有明显偏好性。后期序列的组装与Illumina类似允许在两端的反向重复区域存在一些差异

结论本次研究是基于叶绿体基因组PacBio测序数据进行从头组装第一次报道,用来组装PacBio数据只产生一个较大的contigIllumina相比产生的reads较长并且具有较低的GC偏好性。研究表明,PacBio测序对于基因组研究具有很大的实用性,相比Illumina产生的reads,它并不会产生很多gapcontig.

研究思路】

取材

Potentilla micrantha(以下简称P. micrantha)取自塞尔维亚的阿瓦拉山将其带回实验室并在适宜条件下培养,促进其快速生长之后,提取叶片DNA.

文库构建

分别利用PacBio RSIllumina HiSeq2000提取到的DNA进行建库

测序策略

Pacific Biosciences PacBio RS利用单分子实时(SMRT)测序技术 HiSeq 测序系统既有Illumina和Solexa在边合成边测序上的优势,又融合了最新的光学图谱。

通过对叶绿体基因组的测序及从头组装对PacBio RS测序平台进行评估信息分析:

通过对叶绿体基因组的测序及从头组装对PacBio RS测序平台进行评估

【研究结果】

1.Illumina HiSeq2000PacBio RS测序数据

进行误差纠正之前,提取只包含叶绿体基因的序列,PacBio RS reads平均长度是3,936.66 bp, 一共含有223,483,907核苷酸经过HGAP误差纠正之后还有28,638PacBio RS reads平均长度为1,902.75 bp且一共含有54,492,250 bp核苷酸经过修剪以后,Illumina reads一共含有7,164,496对,平均长度在99.22bp,一共含有核苷酸1,421,726,349

2.叶绿体基因组的组装

PacBio RSIllumina HiSeq2000所产生的数据以及序列的组装的比较见图1与1

1 P. micrantha叶绿体基因组的序列统计

通过对叶绿体基因组的测序及从头组装对PacBio RS测序平台进行评估

使用PacBio RSIllumina HiSeq2000得到的P. Micrantha叶绿体基因组的测序数据汇总统计

1表示修建的Illumina reads

2表示误差修正的PacBio reads原始的Illumina reads

3表示与叶绿体一致性序列的比较

通过对叶绿体基因组的测序及从头组装对PacBio RS测序平台进行评估

1 P. micrantha叶绿体基因组的序列覆盖范围 示意图显示的是P. micrantha叶绿体基因组通过ABySSCelera assembler组装得到Illumina(黑色)和PacBio(绿色)contigs. 示意图最上面的红色的线条表示的是叶绿体基因,蓝色加粗的区域表示的是基因组中反向重复的区域,IlluminaPacBio组装得到的contig 1并非IR唯一的部分用红色表示出来

 3.覆盖深度GC偏好性

PacBioIllumina reads分别覆盖了P. micrantha叶绿体基因组100%和99.6%的Illumina组装后含有低覆盖度的区域(图2),意味着7个contigs只是覆盖了叶绿体一致性基因组的90.59%(图1);PacBio数据则明显更为均匀(图2),并且仅仅组装成一个contig, 也是形成叶绿体一致性序列的基础(图1)2展示的是PacBioIllumina叶绿体基因上的每个碱基的覆盖度,表明PacBio RS的测序结果表现出更加均匀覆盖度

通过对叶绿体基因组的测序及从头组装对PacBio RS测序平台进行评估

2 P. micrantha叶绿体基因组序列每个碱基的覆盖范围 图中显示的是叶绿体基因组的每个碱基之间的测序深度,(a)表示Illumina (黑色)PacBio (绿色)测序数据 (b)表示只有PacBio测序数据,反映出的是PacBio测序数据尽管大大降低了覆盖度,但是在基因组上的覆盖相对均匀,对于Illumina测序数据还含有很低甚至是0覆盖度此外,两个数据集中显著较高覆盖度的是反向重复序列。

为了检测GC偏性是否存在于这两类测序结果中,文章对平均覆盖度和GC百分含量做了相关性分析,在计算的过程中排除了反向重复序列。计算得到的PacBioIllumina数据集的皮尔森系数分别是0.23 (p-value = 5.675e-09)以及0.61 (p-value = 2.2e-16)因此,Illumina数据集中平均覆盖度和GC百分含量表现出很强的相关性(3

通过对叶绿体基因组的测序及从头组装对PacBio RS测序平台进行评估

3  Illumina and PacBio测序数据集GC偏性的计算 分别根据(a) Illumina(黑色)(b) PacBio(绿色)测序数据中,含157个核苷酸的987窗口的平均测序深度计算GC含量并作图结果表明Illumina数据(皮尔森相关系数= 0.61p = 2.2e-16)比PacBio数据(皮尔森相关系数= 0.23p = 5.675e-09)显示出与GC含量的的相关性,排除反向重复序列的高覆盖度数据。

 4.错误率

组装前PacBio RS reads与P. micrantha叶绿体基因组一致性序列相比较,其错误率为1.3%,而Illumina reads错误率仅是0.117%.

 5.叶绿体基因组针对不同测序深度的组装

为了了解使用PacBio RS测序数据时,测序深度对于P. micrantha基因组组装的影响,使用10×, 20×, 35×, 50×,100×, 150×200×样本数据,每个数据集进行组装,7个组装装好的数据集中,5个( 200×35×)得到的是单个的contig, 同时,测序深度为20× 数据集得到4个contigs覆盖基因组的95.6%测序深度为10×的数据集得到的是14contigs覆盖基因组78.2%. 为了进行比较Illumina测序数据取PacBio相同7个测序深度的样本数据,并进行组装但是9111×测序深度相比,并没有得到比较完整的组装。

 6. P. micrantha叶绿体基因组结构

组装好的P. micrantha叶绿体基因组154,959 bp(图4), 反向重复序列(IR) 25,530 bp, 大的单一重复(LSC)和小的单一重复区域(SSC)分别85,137 bp18,762 bp. P. micrantha叶绿体基因组共包含了120个基因,141个基因功能已知。其中31个tRNA编码基因,7位于IR区。

通过对叶绿体基因组的测序及从头组装对PacBio RS测序平台进行评估

4  P. micrantha叶绿体基因组序列  P. micrantha叶绿体基因组基因含量的结构图,外圈内侧表示基因顺时针转录,外圈外侧表示基因逆时针转录,根据不同的功能将基因带有不同的颜色内圈表示基因组平均GC含量。IRaIRb表示反向重复区域LSC和SSC分别表示长重复区域和短重复区域。基因图谱OGDRAW绘制

【研究结论】

1、 文章第一次报道了使用PacBio RS测序平台对叶绿体基因组从头测序与组装,为了更好地评价PacBio RS测序结果,文章还将其Illumina HiSeq2000测序平台的测序结果进行比较。

2、 研究表明,PacBio测序对于基因组研究具有很大的实用性,相比Illumina产生的reads并且具有GC偏好性低,它并不会产生很多gapcontig.

3、 PacBio RS测序技术有利于完成不同真核生物高质量的测序。

【所用软件及数据库

SMALT序列比对工具文中用来过滤和提取叶绿体DNA reads

AbySS序列的拼接与组装是基因组测序数据处理中一个至关重要的步骤,AbySS是用于高通量测序序列拼接与组装的软件

CD-Hit:通过序列比对聚类(Cluster)的方法去除冗除、相似的序列,最后输出一个非冗除(non-redundantnr)的序列文件

SMRTPacific Biosciences公司的SMRT技术,作为第三代测序技术与前两代技术相比,最大的特点是单分子测序

DOGMA基因组注释工具

OGDRAW在基因组学研究中,用于画一个小的环形基因组,例如线粒体、叶绿体、质粒的圈图

CORAL纠正下一代测序数据错误率的工具











Copyright © 2015 陕西博瑞德生物科技有限公司.All Rights Reserved 犀牛云提供企业云服务