BLINK(C版本) 进行 GWAS分析的教程

GAPIT 作为一款基于 R 语言的 GWAS 软件,在多个领域,尤其是动植物育种行业,收获了众多的用户。FarmCPU 是 GAPIT 工具箱中的最新的模型,具有统计效力高,速度快的特点。BLINK 作为FarmCPU 的 C 语言升级版,对关联位点具有更灵敏的探测能力,而且具备分析超大型数据集的能力,可以使用 CPU 和 GPU 进行异构运算。

attachments-2023-12-tQsfLmCe658b9a9112dc6.png

GAPIT目前整合了多种算法,大家可以选择适合自己数据类型的算法。

文献证明了统计功效的顺序为:BLINK >FarmCPU> MLMM > SUPER >ECMLM > CMLM > MLM > GLM


我之前一直在GAPIT中运行Blink,但是R语言运行有个问题,标记量大了之后运行速度会很慢

尝试使用了C版本的BLINK,是张志武老师和黄萌老师开发的软件,速度很快。


一、下载安装

github地址    https://github.com/Menggg/BLINK

attachments-2023-12-5f5QB45Q658b9aa0ebeb2.png
使用git下载

git clone  https://github.com/Menggg/BLINK.git


二、数据展示

下载得到一个BLINK的目录,打开之后是这样子的

attachments-2023-12-vuQTpOoa658b9b0c9104e.png
我们需要用到的主要就是blink_linux,还附带了实例数据,解压后即可查看。

unzip demo_data.zip      #解压


使用BLINK进行GWAS分析主要使用的是vcf文件表型数据

attachments-2023-12-0dpbcO6n658b9b20a4b2b.png

示例数据(demo_data)可以用来核对自己的数据是否格式正确。

vcf 文件格式示例如下,需要注意是vcf是GT格式,即基因型格式。

转换教程:提取 VCF 文件中的基因型信息 - 组学大讲堂问答社区 (omicsclass.com) ,转换后可能还需要一些调整,成为示例数据的格式。

注:我在运行的时候,有时非数字的染色体名称会导致出错,例如Chr01错误,1正确,大家可先用某一性状自行测试,再进行全部的分析。

attachments-2023-12-13tdvUDg658b9b2cc6b43.png
表型数据文件格式示例如下,第一个单元格为固定的taxa,第一行为性状名称,第一列为样本名称缺失值标记为NaN

attachments-2023-12-fjaGeBZA658b9b40379b4.png

三、使用BLINK进行关联分析

接下来就可以进行关联分析了

需要注意的是,表型和基因型文件应该有相同的文件名,且两个文件放在相同路径下

attachments-2023-12-vhQ63z2U658b9b8f61fe4.png
运行命令,注意把BLINK的路径加入到环境变量中或者手动指定软件路径

blink_linux --gwas --file myData --vcf --trait 2
#--file 指定输入文件前缀
#--trait 用来选择自己想要分析的表型,2代表第2个表型
#注意 --gwas和--vcf后不加参数

运行之后得到以下结果:生成了map文件,和最终的结果*_GWAS_result.txt,dpoll为指定性状的名字

attachments-2023-12-qcBHwPF6658b9bd509869.png
GWAS的分析结果如下(只截取了一部分):

attachments-2023-12-Y2CZPFYq658b9be2053a2.png
日志文件如下,分割线的上半部分为标记数量、个体数量和表型数量的统计。分割线的下半部分展示了关联情况,如果有关联位点,会如下显示;

如果没有关联位点,会显示" Number of all the candidate QTNs is 0
The signal from LM is to weak!"

attachments-2023-12-7eHF3iGr658b9bf26eef7.png
如果有很多表型,可以用for循环运行,这里1..20代表从第一个表型到20个表型

for i in {1..20} ;do
blink_linux --gwas --file myData --vcf --trait $i
done

这个C版本的速度真的很快,推荐大家使用!



参考:https://zhuanlan.zhihu.com/p/179534570
CGM 第 143 期: 高速高效全基因组关联分析软件 BLINK | 华人基因组学在线沙龙 (cgmonline.co)

  • 发表于 2023-12-27 11:31
  • 阅读 ( 3464 )
  • 分类:软件工具

0 条评论

请先 登录 后评论
星莓
星莓

生物信息工程师

58 篇文章

作家榜 »

  1. omicsgene 702 文章
  2. 安生水 350 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 82 文章
  6. 红橙子 78 文章
  7. rzx 76 文章
  8. CORNERSTONE 72 文章