easySFS是非常方便的工具,可以将VCF文件转换成各种格式的SFS文件,可以用于其他软件的分析。
输入文件有两个,一个是VCF文件,另外一个是VCF文件中样本的分类文件。
sample1 pop1 sample2 pop1 sample3 pop2 sample4 pop2
他的使用一般有两步,第一步是运行preview,确定每个群体向下投影的值。
easySFS.py -i file.vcf -p pop.txt --preview > proj_flag
proj_flag文件的主要内容如下:
Pop1 (2, 45.0) (3, 59.0) (4, 58.0) (5, 49.0) (6, 41.0) (7, 35.0) (8, 27.0) (9, 20.0) (10, 13.0) (11, 8.0) (12, 8.0) (13, 5.0) (14, 2.0) (15, 2.0) (16, 1.0) pop2 (2, 68.0) (3, 96.0) (4, 106.0) (5, 110.0) (6, 108.0) (7, 89.0) (8, 76.0) (9, 66.0) (10, 56.0) (11, 49.0) (12, 42.0) (13, 39.0) (14, 34.0) (15, 29.0) (16, 27.0) (17, 26.0) (18, 24.0) (19, 23.0) (20, 21.0) (21, 22.0) (22, 20.0) (23, 19.0) (24, 16.0) (25, 16.0) (26, 15.0) (27, 15.0) (28, 13.0) (29, 13.0) (30, 14.0) (31, 14.0) (32, 14.0) (33, 13.0) (34, 12.0) (35, 9.0) (36, 9.0) (37, 8.0) (38, 8.0) (39, 8.0) (40, 6.0) (41, 6.0) (42, 6.0) (43, 5.0) (44, 5.0) (45, 5.0) (46, 4.0) (47, 4.0) (48, 4.0) (49, 3.0) (50, 3.0) (51, 3.0) (52, 3.0) (53, 3.0) (54, 3.0) (55, 2.0) (56, 2.0) (57, 2.0) (58, 2.0) (59, 2.0) (60, 2.0) (61, 2.0) (62, 0.0) (63, 0.0) (64, 0.0) (65, 0.0) (66, 0.0) (67, 0.0) (68, 0.0) (69, 0.0) (70, 0.0) (71, 0.0) (72, 0.0) (73, 0.0) (74, 0.0) (75, 0.0) (76, 0.0)
每个群体有多组(n, m),其中n是projection,m是每个projection预测的的分离位点的数量。在每个群体中选择最大的m对应的n作为第二步中 --proj 的输入列表。
第二步转换:
easySFS.py -i file.vcf -p pop.txt -a --proj=3,5 -o easySFS/
结果文件:
├── dadi │ ├── pop1-3.sfs │ ├── pop1-pop2.sfs │ └── pop2-5.sfs
├── datadict.txt └── fastsimcoal2 ├── file_jointMAFpop0_1.obs ├── pop1_MAFpop0.obs └── pop2_MAFpop0.obs
接下来就可以选择软件dadi或者fastsimcoal2去进行下一步分析了
参考:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!