Skip to contents

该函数用于运行 SMulTiXcan 分析,以评估 GWAS 研究中基因表达对表型的影响, 详见:https://github.com/hakyimlab/MetaXcan/wiki/Tutorial:-GTEx-v8-MASH-models-integration-with-a-Coronary-Artery-Disease-GWAS 结果解读详见:https://predictdb.org/post/2022/03/08/metaxcan-output-file-formats/#smultixcan

Usage

SMulTiXcan(
  test_help = FALSE,
  models_folder = "./data/models/eqtl/mashr",
  models_name_pattern = "mashr_(.*).db",
  snp_covariance =
    "./data/models/gtex_v8_expression_mashr_snp_smultixcan_covariance.txt.gz",
  metaxcan_folder = "./spredixcan",
  metaxcan_filter = "bmi_MTAG__PM__(.*).csv",
  metaxcan_file_name_parse_pattern = "(.*)__PM__mashr_(.*).csv",
  model_db_snp_key = "varID",
  gwas_file = "./imputation/imputed_bmi_MTAG.txt.gz",
  snp_col = "panel_variant_id",
  effect_allele_col = "effect_allele",
  other_allele_col = "non_effect_allele",
  zscore_col = "zscore",
  cutoff_threshold = 30,
  verbosity = 7,
  throw = TRUE,
  opt_arguments = NULL,
  save_name = "BMI",
  save_path = "./smultixcan"
)

Arguments

test_help

逻辑值,是否显示帮助信息(TRUE: 显示帮助,FALSE: 运行分析)。

models_folder

字符串,预测模型所在的文件夹路径。

models_name_pattern

字符串,正则表达式,用于匹配模型文件中的组织名称。

snp_covariance

字符串,SNP 协方差矩阵文件的路径。

metaxcan_folder

字符串,MetaXcan 结果文件所在文件夹的路径。如SPrediXcan()函数生成的结果文件的路径。

metaxcan_filter

字符串,正则表达式,用于筛选 MetaXcan 结果文件。如SPrediXcan()函数生成的结果文件名的正则表达式。

metaxcan_file_name_parse_pattern

字符串,正则表达式,用于解析 MetaXcan 结果文件中的表型名称和模型名称。使用mashr模型时默认为"(.)_PM__mashr(.).csv"。

model_db_snp_key

字符串,指定用于 SNP ID 的关键字。

gwas_file

字符串,GWAS 研究的输入文件路径。如MetaXcan_imputation()函数生成的结果文件的路径。

snp_col

字符串,GWAS 文件中 rsid 对应的列名。

effect_allele_col

字符串,GWAS 文件中效应等位基因的列名。

other_allele_col

字符串,GWAS 文件中非效应等位基因的列名。

zscore_col

字符串,GWAS 文件中 Z 评分对应的列名。

cutoff_threshold

数值,奇异值分解(SVD)截断的方差阈值。

verbosity

整数,日志详细程度(1: 详细日志,10: 仅高层日志,>10: 几乎无日志)。

throw

逻辑值,是否在遇到错误时抛出异常(TRUE: 抛出异常,FALSE: 继续执行)。

opt_arguments

字符串,额外的命令行参数,默认为 NULL。

save_name

字符串,输出文件的名称。

save_path

字符串,输出文件的存储路径。

Value

本函数无返回值,执行 MetaXcan 分析并生成结果文件。结果文件包含以下字段:

  • gene: 基因 ID,来源于组织转录组模型。

  • gene_name: 基因名称,通常采用 HUGO 标准命名,若为内含子区域则显示相应 ID。

  • pvalue: S-MultiXcan 关联分析的显著性 p 值,表示基因的预测表达水平与表型之间的全局关联显著性。

  • n: 该基因具有可用预测表达模型的组织数量。

  • n_indep: 组织预测表达矩阵中保留的独立变异成分数(合成独立组织),用于降低共线性影响。

  • p_i_best: 单组织 S-PrediXcan 关联分析中最显著的 p 值。

  • t_i_best: 产生最显著 p 值的组织名称。

  • p_i_worst: 单组织 S-PrediXcan 关联分析中最不显著的 p 值。

  • t_i_worst: 产生最不显著 p 值的组织名称。

  • eigen_max: 预测表达相关性矩阵 SVD 分解中,方差贡献最高的独立成分的特征值,反映基因表达在组织间的主导变异。

  • eigen_min: 预测表达相关性矩阵 SVD 分解中,方差贡献最低的独立成分的特征值,指示弱效或低噪声成分。

  • eigen_min_kept: 预测表达相关性矩阵 SVD 分解中,保留的最小独立成分的特征值,决定最终纳入分析的独立成分数。

  • z_min: 单组织 S-PrediXcan 关联分析中最小 z 评分,衡量基因表达与表型关联的最低效应值。

  • z_max: 单组织 S-PrediXcan 关联分析中最大 z 评分,衡量基因表达与表型关联的最高效应值。

  • z_mean: 单组织 S-PrediXcan 关联分析中所有 z 评分的均值,提供基因整体效应的概览。

  • z_sd: 单组织 S-PrediXcan 关联分析中 z 评分的标准差,衡量不同组织间效应的变异程度。

  • tmi: 预测表达水平相关性矩阵的轨迹(trace of T * T'),经 SVD 伪逆估计,反映组织间预测表达的独立变异成分数,通常接近 n_indep。

  • status: 计算过程中产生的错误或警告信息(若有)。