【分享】Nature一作深度解读:人类基因组单倍体组装重要技术细节(一二)

QQ20150528-1@2x.png

【编者的话】5月25日,《Nature Biotechnology》 发表了华大基因炎黄(YH)基因组单倍体组装的结果(De novo assembly of a haplotype-resolved human genome),这是迄今最好的人类单倍体组装结果,本文由其共同一作所写,纯技术活。
 
本周二“YH二倍体分级组装”的文章终于在Nature子刊上发表了,这个做了将近五年的项目也终于完成了!所有人都舒了一口气,正如曹爷说的,万里长征终于走到头了!有幸作为其中一个主要参与者我现在也可以大胆地把其中的关键技术写出来了,想想还是有点小激动的。
至于这个项目的总体思路、所有的背景、意义以及结果在发表的文章里都已经说过了,我这里将一概不提。我想写的是那些并没有被完整提到的关键技术点,有些甚至就是隐蔽或者有缺陷的细节。按照以往的经历,这些细节如果不管理好积累起来的话,时间一久基本都是被忘记的命运,而且掌握着这些细节的基本上也只有极少的一部分人,这样的话,一旦以后想要参考原来的方案或者是碰到问题了希望重复原来的研究时,就会困难重重,最后恐怕又不得不花费大量的时间去回忆和尝试,或者直接放弃重来!这其实挺可惜的,甚至是可笑的。所以我写下来一是可以有个记录,以后我们自己要再用到的时候仍然可以方便地查到;二是,也能有助于看到这篇文章的读者更好地理解原来文章的实现思路,方便更进一步的交流和传播。另一个方面则是不同的科研人员都有着自己特有的知识结构,看待问题和解决问题的思路都会有所不同。我们自知在诸多问题的处理上也都不是最优的,虽然文章不发也都发了,但还是很希望能够获得大家对这些方法的不同评价,这样也是更有利于往后类似的成果的发展和改善的。
以下进入正题:
虽然我非常希望能够把细节都写下来,但其实也是不可能或者说是没必要的,因为那些不那么重要或者目前看来比较常规的地方,其实写了也没用,大家也可能都是知道的(比如,数据过滤指标,如何寻找ASE和ASM等),或者是在文章附件中也已经做了详细介绍了的。所以下面我列出的都是一些比较隐蔽的关键细节点,主要还是集中在Phasing过程的前后和评价方法上,因为这也是这个项目中重要的地方。(下面就开始了)

1. 每个Fosmid clone如何准确地在基因组上进行定位的

其实这是一个相当重要的问题,因为测序的时候是不可能单独为每一个fosmid clone建库测序的,成本太高了,因此只能把多个(我们这里是33个)不同的fosmid克隆pooling(混杂)在一起,然后才进行测序。这个时候问题就来了,怎么样才能有效区分出这些原始数据都混杂在一块的独立fosmid clone就成为后面所有分析的基础。为了解决这一问题,除了在实验建库过程中加入index,用以协作区分不同的pool之外,我们的做法是这样的,将每个pool的原始Fastq数据各自比对上YHref,之所以能这样做,是因为每个fosmid pool中平均我们只放了33个fosmid clone,总长大约只有1.2Mb,仅占整个二倍体基因组的0.04%,所以这些clone之间存在Overlap的概率是极低的(详见下文的计算),因此它们测序read比对上YHref之后,理想状态下每个pool中的33个fosmid clone看起来都将如同一个一个的孤岛一般分别聚集在整个基因组上33个不同的位置中,这就是区分出这些fosmid clone的前提理论基础。所以最后要定位所有这些fosmid clone的问题,实际上就转化成了为每个独立的pool寻找它在基因组上具有“显著性深度覆盖的连续区域”!

问题一旦定义清楚了之后,接下来就容易很多了。在这种情况下,我们根据这一特点实现了一个简单的聚类算法,定出(1)区间平均Q20覆盖深度≥5x;(2)区间内部所有能被Q20 read覆盖到的相邻位点之间的间隔不能超过20kbp,否则将被断开成两个区间;(3)区间长度范围在1kbp-50kbp之间;(4)区间中碱基覆盖度≥50%,所有能同时满足这些条件的区域就被我们当作为“显著性深度覆盖的连续区域”,也就是fosmid clone所在的区域。需要注意的是,在这里可以看到我们所说的“显著性”和统计学常用的那些显著性检验方法不同,我们要求的是足够高的覆盖深度;这里的“连续性”也不是指区域中每个位点都必须被连续地覆盖到,而是指相邻覆盖位点之间的间隔不要超过20kbp。

2. Fosmid pool中发生fosmid克隆Overlap的概率是如何计算的

这个概率的高低是能间接反映文章中单倍体组装结果的可靠程度的。项目原本设计的时候之所以要用fosmid建库,就是因为每个fosmid都可以认为是一条条的单倍体片段,那么只要能将它们正确地连接起来就能获得完整的单倍体基因组。因此假如每个pool中相互Overlap的fosmid过多的话,就将容易发生父本和母本的fosmid混装的情况,最后得到的结果就将是不可靠的。关于这一点,其实我们的结果是不应该需要担心的,我们做的很保守每个pool中fosmid clone的数量才33个!发生Overlap的概率必然是极低的!但低归低,该计算的东西还是需要算的,不过关于如何计算这个概率的问题在文章中其实也没有细说,只有一句话“the probability that any two fosmids in a given pool came from the same region was only 0.0033 ”(每个特定的pool中,存有两个来自基因组相同区域的fosmid clone的概率是0.0033),其实我们也发现以前的三篇同类型的文章中都没有仔细说明过这个概率应该如何计算。我们自认数学知识不够用,也曾多方求证,无明显效果后,我们根据对现有状况的理解,把这个问题简单粗暴地简化为“有性别的生日问题,之所以说是有性别,是因为来自同个亲本fosmid clone即便存在Overlap也不会影响单倍体组装的正确性,所以只需要考虑异性混合就行了!于是这个问题的描述就变成了“每个fosmid长度是36.8kbp,整个人类基因组总长是3.14G,所以总的fosmid区域数量是85,249个,问从这些fosmid中随机抽取33个,构成一个pool,计算每个pool中混有来自于同一个基因组区域但却是不同亲本的概率”,仿照“生日问题”这个概率的计算公式是: 
QQ20150527-14@2x.png

其中n是每个pool中平均fosmid的数量,m是全基因组总的fosmid区域个数,将33和85,249代入以上公式后将得到每个fosmid pool中存在overlap的fosmid clone的概率是0.00328。我们一共有19640个fosmid pool,意味着我们仅有65个pool(影响的总长度是75Mb左右,约占基因组总长的2%)存在着来自不同亲本但区域却相互Overlap的fosmid clone,这个数量其实是相当小的了。

另外,根据这个公式我们还计算了Overlap的概率与每个pool中fosmid数量的分布图:
QQ20150528-2@2x.png

 
额!写着写着文章好像有点长了!也罢,暂时先打住吧,后面的内容有点多,剩下的之后再补充吧。有兴趣的欢迎留言。

De novo assembly of a haplotype-resolved human genome. Nat. Biotechnol. (2015). doi:10.1038/nbt.3200


0 个评论

要回复文章请先登录注册