为什么大插入片段(2k, 5k, 20k 等)的DNA文库的原始下机Fastq数据duplication比较高?

请教一个问题,由于要保证组装的质量,所以我们往往在构建了小偏段DNA库之后,还会构建一些大片度DNA库(Meta-Pair),这些大片段库的插入片段长度一般是2kbp,5kbp,10kkbp,20kbp甚至更大。然后再去测序,但是我们发现这些大片段库的下机数据中duplication的比例都比较高,平均达到了40%,甚至还有到70%的!!而我们普通的小片插入片段库测得的下机数据基本都在5%以下!!为何有这么大的差异呢? 
已邀请:

YellowTree - 泛基因发起人,Ph.D,关注基因组学发展

赞同来自: fungenomics wejan

这种由测序带来的duplication往往都是因为要达到足够的上机测序浓度所引入的,一般就是多进行了几轮PCR,使得扩增后的DNA浓度达到上机测序要求。而这些扩增过程就是duplication的来源。你这里的高duplication rate应该也和这个有关。

要回复问题请先登录注册