使用de Bruijn graph组装基因组的时候,Kmer数为何必须是奇数呢

已邀请:

YellowTree - 泛基因发起人,Ph.D,关注基因组学发展

赞同来自: admin huangzhuming

因为如果kmer是偶数,我们会发现基因组上有些序列(如,CGCGCGCG, kmer=4)的Kmer在反向互补后得到的序列仍然是它自身!而这是不能允许的,因为这将导致你无法区分某段序列的kmer到底是属于它自身还是说只是来自于它的互补链!!这将会给解组装的de Bruijn graph带来极大的困难。也许你会这样问“为什么我需要纠结于序列是不是来自互补链呢?毕竟双链DNA的正反链是严格互补的啊,基因组组装也是把它们合并装成一起的呀!”若你能这样来理解其实是没问题的,但前提却是基因组必须能够被一次性完整地(至少是非常接近完整)测出来,这时的测序深度只需是1就可以了(如果都已经把基因组完整测序出来了,那还要组装个屁呀 !!!!! (╯‵□′)╯︵┻━┻),而目前的测序技术是做不到这一点的,通常都是测出成千上百万千万个小小的片段(也叫read,长度一般是100-250bp),并且基因组也会被反复测很多层,所以这个时候构建kmer实际上就是对这些read进行的了,具体的操作就是按照kmer的长度把这些read切割成更小的片段,那么此时在构建de Bruijn graph时能够保证正确地把同属于一条read上的kmer连接起来,就极其重要了呀!你总不能一会儿把A kmer正确地连到它自己所在的read,一会儿又连到它互补链的read上去呀!这就是为何kmer不能是偶数的原因了,因为只有奇数,才能保证每个kmer序列的反向互补Kmer与自身是不同的,而这个不同的真正意义就是为了避免正反链混淆,如 :5-mer的 CGCGC,反向互补后是 GCGCG, 它们是不同的;这就不会像 4-mer,CGCG发现它反向互补后仍然是CGCG!!
最后上一个来自GenomeResearch的图,给大家欣赏下一个Repeat序列的组装过程。

F2.large_.jpg

 

要回复问题请先登录注册