全基因组测序项目发表文章档次的影响因素

随着高通量测序技术的迅速发展及成本的不断降低,物种全基因组测序项目从最初耗时10年并花费几十亿美元的人类基因组计划到现在仅需几个月、花费几百万甚至几十万即可完成。因此,物种全基因组测序项目已成为众多实验室或研究者的首选课题。

 

20133月至今已有三四十个物种的基因组测序成果相继发表,但文章的档次良莠不齐,有的项目同时在Nature杂志上发表两篇文章,而有的项目只发表影响因子为10以内的文章。同样是全基因组测序项目的研究成果,是什么原因导致如此大的差异呢?通过对大量物种基因组测序文章的解析,我们将与大家分享几点心得。

 

首先,组装结果的差异是否直接导致文章发表档次的高低?这通常是研究者开展全基因组项目时比较关注的因素,然而事实并非如此。组装结果是评价一个物种基因组项目结果好坏的重要的指标,如Scaffold N50的长度、基因组的覆盖率等。其中,Scaffold N50是指通过shotgun文库测序的数据及mate pair文库的数据组装后得到的所有Scaffold按照长度从大到小的顺序依次累加,待总和为所有Scaffold总长一半时遇到的那个Scaffold长度。因此,Scaffold N50越长说明组装结果越好。最理想的组装结果是物种有几条染色体就组装得到几个Scaffold,即每个Scaffold都是一条染色体。基因组覆盖率是指组装得到的序列占物种基因组大小的比例,假如一个物种的基因组大小是1Gb,组装得到0.8Gb,则基因组覆盖率为80%。然而,由于物种基因组中重复序列的存在及基因组杂合度的影响,大型真核生物的全基因组测序项目很难达到100%的覆盖率。纵观全基因组测序项目发表的文章,小麦基因组项目连续发表3Nature文章,而Scaffold N50只有19Kb60Kb发表在Nature杂志的轮虫基因组Scaffold N50为仅259Kb。然而,发表在Nature Communication杂志的双峰驼基因组Scaffold N502Mb多;发表在GB杂志的中国莲基因组Scaffold N503.4Mb从这些案例中不难看出,组装结果对文章档次的影响并非至关重要的。当文章的其他方面如分析等处于同等水平时,更好的组装结果会使文章锦上添花,然而反之未必亦然。

 

其次,物种基因组的大小是否直接导致文章发表档次的高低?基因组大小为几Gb的小麦基因组、大麦基因组,甚至十几Gb的云杉基因组的发表,可能会给很多研究者造成一种误区,即目前小基因组的文章相对于大的基因组没有竞争力。然而,事实也并非如此。好的文章主要取决于选材的好坏及整个故事的完整性,并非受基因组大小的直接影响。例如,轮虫基因组只有244Mb,由于研究人员通过全基因组测序解析了蛭形轮虫中缺少减数分裂现象的机理并为后续深入研究奠定了基础,这一研究成果发表于Nature杂志。桃子基因组为265Mb,基因组测序成果发表于Nature Genetics杂志;剑尾鱼基因组为669Mb,基因组测序成果发表于Nature Genetics杂志;棕榈基因组为1.8Gb,基因组测序成果近期同时发表两篇Nature文章。

 

第三,研究的物种与其他研究者相同但进度落后,是否无法发表高水平文章?答案当然是否定的。随着物种测序项目越来越多,出现这种情况的几率也越来越大,只要双方的研究思路不同,能够挖掘到有意义的分析角度并很好地阐明问题,物种基因组测序就不再怕重复。例如,2012年先后发表于Nature Genetics2012.08)及Nature2012.12)的两篇棉花基因组测序的文章,今年先后发表于Nature2013.04)及Genome Research2013.07)的两篇腔棘鱼文章,及今年5月分别发表的挪威云杉和白云杉基因组文章。

 

当然,影响全基因组测序项目文章档次的因素还有很多,我们简单总结几点希望可以起到抛砖引玉的作用,欢迎大家随时与我们交流新的想法。

添加时间:

2013年08月07日

上一个:

如何通过RNA-Seq了解转录本的结构

下一个:

外显子组测序成败的关键——质量
本网站由阿里云提供云计算及安全服务 Powered by CloudDream