HiSeq X Ten

大规模人类基因组测序的意义

绝大多数人类疾病都受到遗传变异的影响,遗传变异包括种系变异(germline variants)与体细胞变异(somatic variants),种系变异通常出现在各种罕见或常见的遗传疾病中,而体细胞变异则是癌症发生的主要原因。基于疾病与基因变异的紧密联系,通过对基因组的序列和功能进行研究,比较和分析不同表型个体之间的基因组序列差异,识别与疾病相关的分子遗传信息,从而实现疾病的预测、预防和个体化治疗。相比DNA芯片及全外显子组测序等基因组研究的方法,全基因组测序是探索并掌握个人遗传组成的最有效手段,它能够在一个实验中找出所检测DNA里包含的所有变异,包括发生在编码区的小范围变异,也包括用全外显子组测序等方法检测不到的某些重要的非编码区变异以及结构变异。然而,研究人员通常需要对大量人类基因组进行高深度测序,才能真正解析基因变异对疾病的影响并更好地开发靶向治疗药物,实现个体化医疗。2014HiSeq X Ten测序平台解决了这一问题,能够以最低的成本开展最大规模的人全基因组测序。



平台简介

HiSeq X TenIllumina2014年推出的最新测序系统,其功能定位为工厂规模的测序系统,实现了Illumina测序仪迄今为止最高的测序通量和最低的测序成本。HiSeq X Ten系统由10台超高通量测序仪HiSeq X组成,测序读长为2×150bp,单台仪器每次运行可产出高达1.8Tb的数据,运行时间在三天以内,即每台仪器每天产出约600Gb的数据。10台仪器同时运行时,每周至少可完成320个人类基因组测序(以30×覆盖度计算),每年完成的数量可超过18000个。因此,HiSeq X Ten将使研究人员更易于开展大规模人类基因组测序,并将有利于深入挖掘与癌症及复杂疾病相关的遗传变异。


千年基因开展Hi Seq X Ten测序的优势


1. 十八年的技术服务经验

千年基因总部Macrogen由首尔大学医学院于1997年成立,2000年上市,18年来已为全球一百多个国家的万余家科研单位提供技术服务。

2.严格的质量认证

千年基因的HiSeq X Ten测序实验在CLIAClinical Laboratory Improvement Amendments)及IGNIllumina Genome Network)认证的基因组学实验室开展,其中CLIA是国际公认的提供临床测序服务的最高认证,IGNIllumina在全球的最高认证,承诺提供最高的数据质量和快速的周转时间,目前亚太区仅千年基因总部MacrogenTakara Bio两个机构通过认证。 

 

3.遥遥领先的测序质量

基于上市公司完善的实验流程管理、严格的质量认证、原厂进口测序试剂及丰富的实验操作经验,千年基因在碱基准确度、测序均一性、可用数据比例方面的质量标准一直遥遥领先。

 

4. 丰富的医学国际项目经验

参与完成韩国人基因组计划、蒙古人基因组计划、Asian Genome Road 项目、1,000人全基因组和100,000人外显子组计划等,通过对大量人类样本的大规模测序,结合其他技术平台对多种数据结果进行包含SNPSVCNV等在内的深入分析,寻找与癌症、糖尿病、心血管疾病等多种遗传疾病相关的基因,从而进行疾病诊断方法及靶向药物的研发。其中,第一个韩国人基因组图谱以其高度注释的结果发表于Nature;亚洲人基因组CNV的研究成果发表于Nature Genetics;人类基因组和转录组多样性研究成果发表于Nature Genetics;肺癌相关的基因融合研究及深入研究成果于Genome Research发表两篇文章;胃癌基因组研究成果发表于Genome Research;目前仍有大量癌症基因组项目正在进行中。


1. HiSeq X Ten测序结果展示

HiSeq X Ten, 仅指千年基因的HiSeq X ten]


样本名称

Sample

R1 Q30 (%)

91.0

R2 Q30 (%)

85.2

Avg. Q30 (%)

88.1

read长度(bp

150

reads数目

875,493,626

总碱基数目(Mb

131,324

平均测序深度(X

45.9

参考基因组长度(Mb

2,858

去除duplicate后可比对reads数目

733,598,826

去除duplicate后可比对reads比例

91.8%

测序深度大于1X的参考基因组覆盖率

99.3%

测序深度大于5X的参考基因组覆盖率

99.0%

测序深度大于10X的参考基因组覆盖率

98.5%

        碱基质量直接极显著影响可用数据的比例、对参考基因组的覆盖率、mapping至参考基因组的比例及变异检测的可靠性等一系列的深层质量指标。这些因素共同决定了是否能够找到致病变异。例如,根据统计Q30每下降10%,数据过滤时将有约20%reads被滤掉,意味着75%Q30将比85%Q3020%的可用数据,而致病变异很可能也同时被过滤掉了,这样将导致后续所有分析都没有意义了。所以,碱基准确度代表了测序的整体质量,并不是把错误碱基过滤掉就一样支持分析。

基于我们多年来丰富的医学国际项目经验、严格的实验流程监管严格及严格使用原厂进口测序试剂,千年基因的碱基准确度一直以来在全球是遥遥领先的。下表的结果显示第一条readQ30高达91%。虽然Illumina边合成边测序时第二条read的碱基质量一般会低于第一条read,即使如此,我们得到两条reads的平均Q30也高达88.1%

 

2. 测序深度大于10×的参考基因组覆盖率达到98.5% [并非所有HiSeq X Ten, 仅指千年基因的HiSeq X ten]

在数据均一性方面,虽然人类基因组测序的总体覆盖深度一般都在30×以上,但由于测序试剂、实验操作和GC bias等因素影响,所有待测区域的覆盖深度并不完全一致。尤其是高GC含量的区域,由于测序偏好性的存在一般覆盖深度会低于其他区域。变异检测时单条read检测出的变异信息可靠性较低,很可能有测序错误导致,因此通常选取覆盖度大于10×reads进行变异分析。

目前已发表的基因组文章中覆盖度大于10×reads所占比例约为85%-95%,结果表明我们通过严格的质量控制可得到很高的测序均一性,测序深度大于reads占整个参考基因组的比例高达99.3%,大于10×reads所占比例也高达98.5%。因此,即使有价值的变异信息位于高GC含量的基因组区域,测序时也能保证该区域获得较高的覆盖度,而不会在变异检测时因覆盖度较低导致这部分信息被遗漏,从而造成假阴性结果。

 

3. 去冗余后mapping比例高达91.8% [并非所有HiSeq X Ten, 仅指千年基因的HiSeq X ten]

在有效数据量方面,duplicate reads是指文库制备过程中因PCR扩增不可避免引入的完全一致的DNA片段,duplicate reads所占比例的高低主要取决于实验人员操作的熟练程度。由于这部分数据对后期的变异分析没有意义,因此会在分析前过滤去除。结果表明我们通过严格的质量控制可得到很低的duplicate reads比例,去除duplicate reads后可比对至参考基因组的reads比例仍高达91.8%。这意味着在相同原始数据量的前提下,可让研究者获得更多的可用数据量。

 

4. HiSeq 2000数据具备高一致性

为了进一步验证HiSeq X Ten数据的可靠性,我们选取两个样本分别用HiSeq X TenHiSeq 2000测序后进行基因分型比较。其中NRDnon-reference discrepancy)代表这两种方法有差异位点的比率,该值越低表示两种方法的一致性越好。结果表明,HiSeq X TenHiSeq 2000进行基因分型的一致性是非常高的,这也进一步验证了HiSeq X Ten数据的高可靠性。

 


2. HiSeq X TenHiSeq 2000数据可靠性比较

样本名称

Sample1

Sample2

测序平台

HiSeq 2000

HiSeq X Ten

HiSeq 2000

HiSeq X Ten

数据输出格式

fastq

bcl

fastq

bcl

比对分析软件

Isaac Genome Alignment

变异检测软件

Isaac Variant Caller

SNP数目

3,477,298

3,438,051

3,489,040

3,488,962

基因分型

overlapped SNP数目

3,306,176

3,358,359

overlapped SNP比例

95.08%

96.16%

96.25%

96.26%

异源错配

642

600

异源匹配

1,907,342

1,927,953

 


2017年01月04日

添加时间:

上一个:

HiSeq 2000 / 2500

下一个:

HiSeq 2000 / 2500
本网站由阿里云提供云计算及安全服务 Powered by CloudDream