使用 FUSION 软件进行转录组广泛关联研究 (TWAS) 分析
TWAS_fusion_assoc_test.Rd
此函数通过调用 FUSION 软件进行转录组广泛关联研究(TWAS)分析,利用基因表达与表型之间的关联,探索基因与疾病或其他表型的潜在关系。用户需要准备已格式化的 GWAS 总结统计文件,并下载适当的权重数据文件与参考数据。FUSION 软件的官网链接:https://gusevlab.org/projects/fusion/。
使用前,确保已通过 TWAS_fusion_format_data()
函数进行数据格式转换。
Usage
TWAS_fusion_assoc_test(
test_help = FALSE,
Sumstatsfile = "PGC2.SCZ.sumstats",
weights_dir = "./WEIGHTS/",
weights = "./WEIGHTS/GTExv8.EUR.Whole_Blood.nofilter.pos",
resource = "GTEx_v8",
ref_ld_chr = "./LDREF/1000G.EUR.",
start_chr = 1,
end_chr = 22,
coloc_pval = NULL,
GWASN = NULL,
perm = 10000,
PANELN = NA,
opt_arguments = NULL,
remove_MHC = TRUE,
FDR_method = "bonferroni",
save_name = "SCZ",
save_path = "./SCZ",
cores = 1
)
Arguments
- test_help
逻辑值,是否调阅 FUSION 软件的
FUSION.assoc_test
函数帮助文档。默认为FALSE
。- Sumstatsfile
字符串,GWAS 总结统计数据文件路径,要求为
.sumstats.gz
格式。可通过TWAS_fusion_format_data()
函数格式化得到。- weights_dir
字符串,包含权重文件的目录路径。
- weights
字符串,指定权重数据文件的路径,文件格式为
.pos
,可从 FUSION 官网下载。- resource
字符串,指定权重数据来源,选项包括 "GTEx_v8" 或 "other"(默认为 "GTEx_v8")。
- ref_ld_chr
字符串,指定连锁不平衡参考数据的路径。数据可从 https://alkesgroup.broadinstitute.org/FUSION/LDREF.tar.bz2 下载。
- start_chr
整数,指定分析的起始染色体编号,取值范围为 1 至 22。
- end_chr
整数,指定分析的终止染色体编号,取值范围为 1 至 22。
- coloc_pval
数值或
NULL
,用于共定位分析的显著性阈值。若不进行共定位分析,设置为NULL
,默认值为 0.05。- GWASN
整数,GWAS 总结统计数据的样本量。若进行共定位分析,必须指定该值。
- perm
整数,置换检验次数,默认值为 10000。
- PANELN
整数,参考面板的权重数据。默认为
NA
,若没有指定,则不使用参考面板。- opt_arguments
字符串或
NULL
,传递给 FUSION 软件FUSION.assoc_test
函数的其他命令行参数。若需要查看具体参数,请将test_help
设置为TRUE
。- remove_MHC
逻辑值,是否移除 MHC 区域的 SNP,默认为
TRUE
。若不移除 MHC 区域,请设置为FALSE
。- FDR_method
字符串,TWAS P 值的多重检验校正方法,选项包括 "fdr" 或 "bonferroni"。默认为 "bonferroni"。若设置为
NULL
,则不进行 FDR 校正。- save_name
字符串,结果文件的名称。
- save_path
字符串,结果文件保存的路径。
- cores
整数,指定并行计算时使用的线程数,默认为 1。
Value
返回一个数据框(data.frame),并保存为 CSV 文件,包含 TWAS 分析的结果。每行代表一个基因在特定表型下的分析结果,字段包括:
FILE
:使用的参考权重文件的完整路径。ID
:基因或功能元件的标识符,来源于权重文件(例如 FAM109B)。CHR
:基因所在的染色体编号。P0
:基因起始位置(基于权重文件)。P1
:基因终止位置(基于权重文件)。HSQ
:该基因的遗传力(heritability)。BEST.GWAS.ID
:在该基因座内最显著 GWAS SNP 的 rsID。BEST.GWAS.Z
:该 GWAS SNP 的 Z-score,反映其与表型的关联强度。EQTL.ID
:该基因座内最显著的 eQTL rsID。EQTL.R2
:该 eQTL 的交叉验证 R²,表示其预测能力。EQTL.Z
:该 eQTL 的 Z-score,衡量基因表达与基因型的关联强度。EQTL.GWAS.Z
:该 eQTL 在 GWAS 中的 Z-score,反映其与表型的关联。NSNP
:该基因座内的 SNP 数量。MODEL
:使用的最优模型(例如 Lasso)。MODELCV.R2
:最优模型的交叉验证 R²,评估其预测性能。MODELCV.PV
:最优模型的交叉验证 P 值,评估其预测显著性。TWAS.Z
:TWAS Z-score,表示基因表达对表型的预测关联强度。TWAS.P
:TWAS P 值,评估基因表达与表型的统计学显著性。
该函数还将根据设定的显著性阈值(如 FDR 或 Bonferroni 校正)筛选结果,并将显著结果保存为单独的文件。