关于Tangram计算Genotype的核心方法

已邀请:

YellowTree - 泛基因发起人,Ph.D,关注基因组学发展

赞同来自:

根据官方的说法,Tangram是一个由C++编写并能用于检测基因组上的结构性变异(structural variation )的工具集,特别是对于MEI(mobile element insertion)变异的检测,而且充分使用Read-Pair(RP)和Split-Read(SR)的算法来提高变异检测结果的有效性,文章在2014年发布在BMC Genomics上。具体代码托管在github.
 
接下来回到原问题本身:
Tangram 计算Genotype的方法,核心就是二项分布,对单个人来进行,不对群体!程序是:TGM_Genotype.h和TGM_Genotype.cpp
原理很简单,设定三个不同的P(0.999,0.5,0.001),这个p是对于支持Reference的reads数而言的。将这个p值、refCount和AltCount代入二项分布函数分别计算得到三个likelihood,最后挑选最大的那一个! 
 
以下,挑选最优likelihood的代码:
q26_figure1.png

其中,计算likelihood的计算函数: 
q26_figure2.png

http://blog.gkno.me/post/36865061743/getting-start-with-tangram

要回复问题请先登录注册