如何才能生成一份可以使用tabix查看的文件

已邀请:

YellowTree - 泛基因发起人,Ph.D,关注基因组学发展

赞同来自: admin

简而言之,就3步!
  1. 将文件按照染色体ID、区间起始位置和终止位置排好序;
  2. bgzip对排序后的文件进行压缩,注意,一定是用bgzip压缩,其它的压缩方法(包括linux自带的gzip)都不可以;
  3. 使用tabix为压缩后的文件建立索引(index)。

 
以下,用例子来说明,比如文件‘example.bed’:
$ head -n5 example.bed | column -t
chr19 53611131 53636172 ZNF415
chr10 72149121 72150375 CEP57L1P1
chr4 185009858 185139113 ENPP6
chrX 132669772 133119672 GPC3
chr6 134924279 134925376 FAM8A6P
1. 染色体ID、区间起始位置和终止位置排好序;
2. 然后对排好序的文件使用bgzip压缩:
$ sort -k1V -k2n -k3n example.bed | bgzip > example.bed.gz
3. tabix建立索引文件:
$ tabix -s 1 -b 2 -e 3 example.bed.gz
$ ls
example.bed example.bed.gz example.bed.gz.tbi
这样就可以使用了!tabix中-b和-e所接的参数可以是一样的(这对于只有一个位置坐标的文件是很有用),所以,理论上所有含有染色体ID(或者说是序列ID)和起始位置(不一定需要终止位置)的文件都是可以用tabix来建立索引,并借助tabix对其任意位置进行快速读取的。
 
 

要回复问题请先登录注册