使用SMulTiXcan进行跨组织TWAS分析
SMulTiXcan.Rd
该函数用于运行 SMulTiXcan 分析,以评估 GWAS 研究中基因表达对表型的影响, 详见:https://github.com/hakyimlab/MetaXcan/wiki/Tutorial:-GTEx-v8-MASH-models-integration-with-a-Coronary-Artery-Disease-GWAS 结果解读详见:https://predictdb.org/post/2022/03/08/metaxcan-output-file-formats/#smultixcan
Usage
SMulTiXcan(
test_help = FALSE,
models_folder = "./data/models/eqtl/mashr",
models_name_pattern = "mashr_(.*).db",
snp_covariance =
"./data/models/gtex_v8_expression_mashr_snp_smultixcan_covariance.txt.gz",
metaxcan_folder = "./spredixcan",
metaxcan_filter = "bmi_MTAG__PM__(.*).csv",
metaxcan_file_name_parse_pattern = "(.*)__PM__mashr_(.*).csv",
model_db_snp_key = "varID",
gwas_file = "./imputation/imputed_bmi_MTAG.txt.gz",
snp_col = "panel_variant_id",
effect_allele_col = "effect_allele",
other_allele_col = "non_effect_allele",
zscore_col = "zscore",
cutoff_threshold = 30,
verbosity = 7,
throw = TRUE,
opt_arguments = NULL,
save_name = "BMI",
save_path = "./smultixcan"
)
Arguments
- test_help
逻辑值,是否显示帮助信息(TRUE: 显示帮助,FALSE: 运行分析)。
- models_folder
字符串,预测模型所在的文件夹路径。
- models_name_pattern
字符串,正则表达式,用于匹配模型文件中的组织名称。
- snp_covariance
字符串,SNP 协方差矩阵文件的路径。
- metaxcan_folder
字符串,MetaXcan 结果文件所在文件夹的路径。如SPrediXcan()函数生成的结果文件的路径。
- metaxcan_filter
字符串,正则表达式,用于筛选 MetaXcan 结果文件。如SPrediXcan()函数生成的结果文件名的正则表达式。
- metaxcan_file_name_parse_pattern
字符串,正则表达式,用于解析 MetaXcan 结果文件中的表型名称和模型名称。使用mashr模型时默认为"(.)_PM__mashr(.).csv"。
- model_db_snp_key
字符串,指定用于 SNP ID 的关键字。
- gwas_file
字符串,GWAS 研究的输入文件路径。如MetaXcan_imputation()函数生成的结果文件的路径。
- snp_col
字符串,GWAS 文件中 rsid 对应的列名。
- effect_allele_col
字符串,GWAS 文件中效应等位基因的列名。
- other_allele_col
字符串,GWAS 文件中非效应等位基因的列名。
- zscore_col
字符串,GWAS 文件中 Z 评分对应的列名。
- cutoff_threshold
数值,奇异值分解(SVD)截断的方差阈值。
- verbosity
整数,日志详细程度(1: 详细日志,10: 仅高层日志,>10: 几乎无日志)。
- throw
逻辑值,是否在遇到错误时抛出异常(TRUE: 抛出异常,FALSE: 继续执行)。
- opt_arguments
字符串,额外的命令行参数,默认为 NULL。
- save_name
字符串,输出文件的名称。
- save_path
字符串,输出文件的存储路径。
Value
本函数无返回值,执行 MetaXcan 分析并生成结果文件。结果文件包含以下字段:
gene: 基因 ID,来源于组织转录组模型。
gene_name: 基因名称,通常采用 HUGO 标准命名,若为内含子区域则显示相应 ID。
pvalue: S-MultiXcan 关联分析的显著性 p 值,表示基因的预测表达水平与表型之间的全局关联显著性。
n: 该基因具有可用预测表达模型的组织数量。
n_indep: 组织预测表达矩阵中保留的独立变异成分数(合成独立组织),用于降低共线性影响。
p_i_best: 单组织 S-PrediXcan 关联分析中最显著的 p 值。
t_i_best: 产生最显著 p 值的组织名称。
p_i_worst: 单组织 S-PrediXcan 关联分析中最不显著的 p 值。
t_i_worst: 产生最不显著 p 值的组织名称。
eigen_max: 预测表达相关性矩阵 SVD 分解中,方差贡献最高的独立成分的特征值,反映基因表达在组织间的主导变异。
eigen_min: 预测表达相关性矩阵 SVD 分解中,方差贡献最低的独立成分的特征值,指示弱效或低噪声成分。
eigen_min_kept: 预测表达相关性矩阵 SVD 分解中,保留的最小独立成分的特征值,决定最终纳入分析的独立成分数。
z_min: 单组织 S-PrediXcan 关联分析中最小 z 评分,衡量基因表达与表型关联的最低效应值。
z_max: 单组织 S-PrediXcan 关联分析中最大 z 评分,衡量基因表达与表型关联的最高效应值。
z_mean: 单组织 S-PrediXcan 关联分析中所有 z 评分的均值,提供基因整体效应的概览。
z_sd: 单组织 S-PrediXcan 关联分析中 z 评分的标准差,衡量不同组织间效应的变异程度。
tmi: 预测表达水平相关性矩阵的轨迹(trace of T * T'),经 SVD 伪逆估计,反映组织间预测表达的独立变异成分数,通常接近 n_indep。
status: 计算过程中产生的错误或警告信息(若有)。