Skip to contents

此函数通过调用 FUSION 软件进行转录组广泛关联研究(TWAS)分析,利用基因表达与表型之间的关联,探索基因与疾病或其他表型的潜在关系。用户需要准备已格式化的 GWAS 总结统计文件,并下载适当的权重数据文件与参考数据。FUSION 软件的官网链接:https://gusevlab.org/projects/fusion/。 使用前,确保已通过 TWAS_fusion_format_data() 函数进行数据格式转换。

Usage

TWAS_fusion_assoc_test(
  test_help = FALSE,
  Sumstatsfile = "PGC2.SCZ.sumstats",
  weights_dir = "./WEIGHTS/",
  weights = "./WEIGHTS/GTExv8.EUR.Whole_Blood.nofilter.pos",
  resource = "GTEx_v8",
  ref_ld_chr = "./LDREF/1000G.EUR.",
  start_chr = 1,
  end_chr = 22,
  coloc_pval = NULL,
  GWASN = NULL,
  perm = 10000,
  PANELN = NA,
  opt_arguments = NULL,
  remove_MHC = TRUE,
  FDR_method = "bonferroni",
  save_name = "SCZ",
  save_path = "./SCZ",
  cores = 1
)

Arguments

test_help

逻辑值,是否调阅 FUSION 软件的 FUSION.assoc_test 函数帮助文档。默认为 FALSE

Sumstatsfile

字符串,GWAS 总结统计数据文件路径,要求为 .sumstats.gz 格式。可通过 TWAS_fusion_format_data() 函数格式化得到。

weights_dir

字符串,包含权重文件的目录路径。

weights

字符串,指定权重数据文件的路径,文件格式为 .pos,可从 FUSION 官网下载。

resource

字符串,指定权重数据来源,选项包括 "GTEx_v8" 或 "other"(默认为 "GTEx_v8")。

ref_ld_chr

字符串,指定连锁不平衡参考数据的路径。数据可从 https://alkesgroup.broadinstitute.org/FUSION/LDREF.tar.bz2 下载。

start_chr

整数,指定分析的起始染色体编号,取值范围为 1 至 22。

end_chr

整数,指定分析的终止染色体编号,取值范围为 1 至 22。

coloc_pval

数值或 NULL,用于共定位分析的显著性阈值。若不进行共定位分析,设置为 NULL,默认值为 0.05。

GWASN

整数,GWAS 总结统计数据的样本量。若进行共定位分析,必须指定该值。

perm

整数,置换检验次数,默认值为 10000。

PANELN

整数,参考面板的权重数据。默认为 NA,若没有指定,则不使用参考面板。

opt_arguments

字符串或 NULL,传递给 FUSION 软件 FUSION.assoc_test 函数的其他命令行参数。若需要查看具体参数,请将 test_help 设置为 TRUE

remove_MHC

逻辑值,是否移除 MHC 区域的 SNP,默认为 TRUE。若不移除 MHC 区域,请设置为 FALSE

FDR_method

字符串,TWAS P 值的多重检验校正方法,选项包括 "fdr" 或 "bonferroni"。默认为 "bonferroni"。若设置为 NULL,则不进行 FDR 校正。

save_name

字符串,结果文件的名称。

save_path

字符串,结果文件保存的路径。

cores

整数,指定并行计算时使用的线程数,默认为 1。

Value

返回一个数据框(data.frame),并保存为 CSV 文件,包含 TWAS 分析的结果。每行代表一个基因在特定表型下的分析结果,字段包括:

  • FILE:使用的参考权重文件的完整路径。

  • ID:基因或功能元件的标识符,来源于权重文件(例如 FAM109B)。

  • CHR:基因所在的染色体编号。

  • P0:基因起始位置(基于权重文件)。

  • P1:基因终止位置(基于权重文件)。

  • HSQ:该基因的遗传力(heritability)。

  • BEST.GWAS.ID:在该基因座内最显著 GWAS SNP 的 rsID。

  • BEST.GWAS.Z:该 GWAS SNP 的 Z-score,反映其与表型的关联强度。

  • EQTL.ID:该基因座内最显著的 eQTL rsID。

  • EQTL.R2:该 eQTL 的交叉验证 R²,表示其预测能力。

  • EQTL.Z:该 eQTL 的 Z-score,衡量基因表达与基因型的关联强度。

  • EQTL.GWAS.Z:该 eQTL 在 GWAS 中的 Z-score,反映其与表型的关联。

  • NSNP:该基因座内的 SNP 数量。

  • MODEL:使用的最优模型(例如 Lasso)。

  • MODELCV.R2:最优模型的交叉验证 R²,评估其预测性能。

  • MODELCV.PV:最优模型的交叉验证 P 值,评估其预测显著性。

  • TWAS.Z:TWAS Z-score,表示基因表达对表型的预测关联强度。

  • TWAS.P:TWAS P 值,评估基因表达与表型的统计学显著性。

该函数还将根据设定的显著性阈值(如 FDR 或 Bonferroni 校正)筛选结果,并将显著结果保存为单独的文件。