使用FOCUS软件进行多种组织精细定位分析 — TWAS_FOCUS_Multi

该函数使用FOCUS软件进行多种组织精细定位（fine-mapping）分析。更多信息请访问官网：https://github.com/mancusolab/ma-focus。

Usage

TWAS_FOCUS_Multi_test(
  finemap_help = FALSE,
  Sumstatsfile = "./UC.sumstats.gz",
  ref_ld = "./1000G_EUR_Phase3_plink/1000G.EUR.QC.",
  weights_file = "./FOCUS_WEIGHTS",
  start_chr = 1,
  end_chr = 22,
  plot = TRUE,
  locations = "38:EUR",
  prior_prob = "gencode38",
  p_threshold = 5e-08,
  opt_arguments = NULL,
  pip_sig = 0.9,
  save_name = "UC",
  save_path = "./UC",
  cores = 2
)

Arguments

finemap_help: 逻辑值，是否调阅FOCUS软件finemap的帮助文档，默认值为 FALSE。
Sumstatsfile: 字符串，GWAS总结统计文件路径，格式为 .sumstats.gz，使用 TWAS_FOCUS_format_data() 函数转换获得。
ref_ld: 字符串，PLINK格式的参考面板数据路径，填写至文件前缀，不包含序号。下载地址：https://console.cloud.google.com/storage/browser/broad-alkesgroup-public-requester-pays/LDSCORE。
weights_file: 字符串，FOCUS分析所需权重数据 .db 文件的文件夹路径。
start_chr: 整数，分析的起始染色体序号。
end_chr: 整数，分析的终止染色体序号。
plot: 逻辑值，是否绘制fine-mapping图，默认值为 TRUE。
locations: 字符串，指定独立区域，例如 '37:EUR', '37:AFR' 等。可选值包括多个预设的地理或人群组合。
prior_prob: 字符串或数值，因果关系基因的先验概率类型。可选值为 'gencode37'、'gencode38' 或固定数值（如 1e-3）。
p_threshold: 数值，执行TWAS精细定位所需的最小GWAS p值显著性阈值，默认值为 5e-8。
opt_arguments: 字符串，FOCUS软件finemap的其他命令行参数，默认值为 NULL。
pip_sig: 数值，pip的显著性阈值，范围在0到1之间，默认值为 0.9。
save_name: 字符串，结果保存文件的文件名称。
save_path: 字符串，结果文件保存路径。
cores: 整数，使用的并行运算线程数，默认值为 2。

Value

生成多个 CSV 结果文件，每行代表一个基因在特定表型下的 TWAS + 精细定位（fine-mapping）分析结果，包含以下字段：

block: 独立基因组区域，格式为 chrom:start-chrom:stop。
ens_gene_id: Ensembl 基因 ID。
ens_tx_id: Ensembl 转录本 ID。
mol_name: 基因、长链非编码 RNA（lncRNA）、假基因等分子特征的名称。
tissue: 原始基因表达数据测定的组织类型。
ref_name: QTL 参考面板的名称。
type: 分子特征类别（如基因、lncRNA、lincRNA、假基因）。
chrom: 染色体编号。
tx_start: 转录起始位点。
tx_stop: 转录终止位点。
block_genes: 该基因组区域中的基因数目，用于设定某个基因为因果基因的先验概率。
inference_pop1: 用于模型推断的统计方法（例如 LASSO, BSLMM）。
inter_z_pop1: 在回归去除平均表型效应时的 Z-score 截距（如果 intercept = False，则该值为 None）。
cv.R2_pop1: 交叉验证的预测 R²，衡量模型的预测能力。
cv.R2.pval_pop1: 交叉验证 R² 对应的 p 值。
twas_z_pop1: 该基因的边际 TWAS Z-score，表示其对表型的预测性。
pip_pop1: 该基因的边际后验包含概率（Posterior Inclusion Probability, PIP），衡量其作为因果基因的可能性。
in_cred_set_pop1: 是否包含在可信集合（credible set）中的标记变量（1 表示包含，0 表示不包含）。
ldregion_pop1: 参考基因组中 LD（连锁不平衡）区域的信息。