GS FLX & GS FLX+在全基因组de novo测序中的应用

1、全基因组de novo测序       
        全基因组de novo测序又叫从头测序,是指不依赖与任何已知的基因组信息对某一个物种的基因组进行测序、组装,最终得到该物种的基因组序列图谱。全基因组de novo测序用于测定某个物种的核苷酸序列,从而绘制出基因组图谱,达到破译物种的遗传信息的目的,对于后续重要基因的图位克隆、生物信息学以及比较基因组学研究都有很重要的意义。
 
2、GS FLX & GS FLX+平台简介
        2005年454公司推出第一台Genome Sequencer 20 System高通量测序仪,开创了边合成边测序的先河。后来454被Roche收购后于2007年推出了GS FLX系统。GS FLX平台的读长范围是360bp-550bp,GS FLX+应用于基因组DNA的读长是700-1000bp,应用于没有参考基因组的物种测序。GS FLX平台长读长的数据更有利于全面检测基因组所发生的变异,鉴别等位基因信息,从而为基因组的组装提供高质量的框架,更有利于挖掘其相关的生物学意义。尤其是GS FLX+升级完成后,序列数据将基因拼接到更长的基因组片段中,使研究人员可专注于生物学研究,而不像使用短读长测序系统那样,花大量的时间在高度多样性片段的拼接方面。
 
3、GS FLX & GS FLX+数据产出
 
 
GS FLX+
GS FLX
读长
~1,000bp
~600bp
平均读长
700bp
450bp
测序长度分布
85%以上的reads>500bp
45%以上的reads>700bp
85%以上的reads>300bp
20%以上的reads>500bp
测序通量
>700M**
450M-650M
每个Run reads数
~ 1,000,000
~ 1,000,000
准确度
99.997%
99.995%
运行时间
23小时
10小时
样本要求
DNA或cDNA
DNA、cDNA或PCR产物
注:目前在Macrogen千年基因应用GS FLX+于基因组DNA测序项目时每个run的数据产出已经稳定达到900M,并且在合同中明确保证大于90%的碱基准确度达到Q40
 
4、GS FLX & GS FLX+实验流程
 
5、GS FLX & GS FLX+的应用
        GS FLX & GS FLX+平台至今已有2324篇文献发表,其中全基因组de novo测序相关的文章为564篇,包括真核生物、原核生物、线粒体以及叶绿体等质体的全基因组de novo测序项目,其中大型真核生物和原核生物的总文献数约为380篇。
 
        以2012年为例,其中GS FLX & GS FLX+平台在全基因组de novo测序方面有30多篇文献发表,包括复杂的六倍体小麦的全基因组测序、基因组大小为5.1G的大麦全基因组测序以及一些基因组较复杂的测序项目(比如35%<GC%或者GC%>65%且重复度高于50%同时杂合度高于0.5%)等。所有这些在全基因组de novo测序方面获得的测序数据都彰显了GS FLX & GS FLX+在全基因组测序中的优势。
 
        再像在大麻的全基因组测序方面,最初使用短读长的二代测序技术对其进行测序,因所获得的测序数据不能提供一个清晰的基因组全貌,很难从中找出有用的生物学信息。随后使用读长更长的测序平台GS FLX+对三次回交的品系进行测序,从而组装获得大麻这个复杂植物基因组的高质量基因组草图,并意外发现大麻品系间基因组变异超过1%,是人类基因组间差异的10倍之多。此外,鳕鱼全基因组测序的完成,几乎全部是使用GS FLX平台进行测序的,文章发表在nature杂志上;鲑鱼的全基因组测序最开始尝试的是Solexa测序,但是由于基因组本身比较复杂,最终研究者放弃了Solexa测序,改为GS FLX测序。再比如今年发表的西红柿全基因组测序的文章、黑猩猩的全基因组测序的文章等全部都是利用GS FLX平台进行测序的,文章都是发表在nature杂志上;蝴蝶的全基因组测序也是利用GS FLX平台完成的,文章最终发表在cell杂志上。
 
        还有苹果、草莓、可可、蓝芥、马铃薯、麻风树、火鸡、袋鼠、鹿角珊瑚、大头切叶蚁、阿根廷蚁、火蚁等都是应用到了GS FLX测序平台,这些研究成果都充分体现了GS FLX & GS FLX+测序平台获得的长序列更有利于进行等位基因的鉴定、跨越重复片段等。
 
        因此,GS FLX &GS FLX+结合多种平台进行测序的方案是目前国际上比较公认的全基因组de novo测序方案。该测序方案一般主要是以GS FLX &GS FLX+为依托,通过较长的reads拼接得到相对更长的contigs,在此基础上运用跨度不同的mate pair文库中的序列组装获得长scaffolds,然后结合HiSeq 2000/GAII/SOLiD平台的数据来提高覆盖度、填补gap等,最终获得高质量的序列组装结果。Macrogen千年基因的全基因组de novo测序项目均采用此国际方案,已启动的中国花生基因组计划及娃娃鱼全基因组项目均以GS FLX &GS FLX+为主要测序平台,结果表明较长的读长能够更好地跨越花生A基因组的高度重复区域,从而显著改善基因组拼接效果。 

添加时间:

2013年01月25日

上一个:

高通量测序常用名词汇总

下一个:

本网站由阿里云提供云计算及安全服务 Powered by CloudDream