Skip to contents

该函数利用 FUSION 软件,调用 TWAS_fusion_assoc_test 函数进行循环分析,支持多种组织的分析,数据来源包括 GTEx_v8 等,适用于遗传学和表型关联分析。

Usage

TWAS_fusion_Multi_test(
  Sumstatsfile = "PGC2.SCZ.sumstats",
  weights_type = "nofilter.pos",
  weights_dir = "./WEIGHTS/",
  resource = "GTEx_v8",
  ref_ld_chr = "./LDREF/1000G.EUR.",
  start_chr = 1,
  end_chr = 22,
  coloc_pval = NULL,
  GWASN = NULL,
  perm = 10000,
  PANELN = NA,
  opt_arguments = NULL,
  remove_MHC = TRUE,
  FDR_method = "bonferroni",
  save_name = "SCZ",
  save_path = "./SCZ",
  cores = 1
)

Arguments

Sumstatsfile

字符串,指定 .sumstats.gz 格式的输入文件路径,该文件应由 TWAS_fusion_format_data() 函数转换获得。

weights_type

字符串,指定权重数据文件类型。可选值:"nofilter.pos" 或 "pos",默认值为 "nofilter.pos"。

weights_dir

字符串,指定权重数据文件所在的目录路径。

resource

字符串,指定权重数据文件的来源。可选值:"GTEx_v8" 或 "other",默认值为 "GTEx_v8"。

ref_ld_chr

字符串,指定连锁不平衡的参考数据文件路径,下载地址:https://alkesgroup.broadinstitute.org/FUSION/LDREF.tar.bz2。

start_chr

整数,指定开始分析的染色体编号(1 到 22)。

end_chr

整数,指定结束分析的染色体编号(1 到 22)。

coloc_pval

数值,指定用于共定位分析的 p 值阈值,默认值为 NULL(不进行共定位分析)。常规设置为 0.05。

GWASN

整数,指定 GWAS 数据(即 Sumstatsfile)的样本量,默认值为 NULL。

perm

整数,指定置换检验的次数,默认值为 10000。

PANELN

整数,指定参考面板的权重数据,默认为 NA。

opt_arguments

字符串或 NULL,FUSION 软件 FUSION.assoc_test 函数的其他命令行参数,默认为 NULL。

remove_MHC

布尔值,指定是否移除 MHC 区域的 SNP,默认为 TRUE。

FDR_method

字符串,指定 TWAS P 值的 FDR 矫正方法。可选值:"fdr" 或 "bonferroni",默认值为 "bonferroni"。若为 NULL,则不进行 FDR 矫正。

save_name

字符串,指定保存结果文件的文件名称(不包括文件扩展名)。

save_path

字符串,指定保存结果文件的目录路径。

cores

整数,指定并行计算时使用的核心数,默认为 1。

Value

生成多个 CSV 结果文件,每行代表一个基因在特定表型下的 TWAS(Transcriptome-Wide Association Study)分析结果,包含以下字段:

  • FILE: 使用的参考权重文件的完整路径。

  • ID: 基因或功能元件的标识符,来源于 –weights 文件(例如 FAM109B)。

  • CHR: 所在染色体编号。

  • P0: 基因起始位置(基于 –weights 文件)。

  • P1: 基因终止位置(基于 –weights 文件)。

  • HSQ: 该基因的遗传力(heritability)。

  • BEST.GWAS.ID: 在该基因座内最显著 GWAS SNP 的 rsID。

  • BEST.GWAS.Z: 该 GWAS SNP 的 Z-score,反映其与表型的关联强度。

  • EQTL.ID: 该基因座内最显著 eQTL(表达数量性状位点)的 rsID。

  • EQTL.R2: 该 eQTL 的交叉验证 R²,表示其预测能力。

  • EQTL.Z: 该 eQTL 的 Z-score,衡量基因表达与基因型的关联强度。

  • EQTL.GWAS.Z: 该 eQTL 在 GWAS 中的 Z-score,反映其在表型中的作用。

  • NSNP: 该基因座内的 SNP 数量。

  • MODEL: 最优模型(例如 Lasso)。

  • MODELCV.R2: 该模型的交叉验证 R²,评估其预测性能。

  • MODELCV.PV: 该模型的交叉验证 P 值,评估其预测显著性。

  • TWAS.Z: 主要分析统计量,即 TWAS Z-score,表示该基因表达对表型的预测关联强度。

  • TWAS.P: 主要分析统计量,即 TWAS P 值,评估该基因表达与表型的统计学显著性。。