使用FOCUS软件进行多种组织精细定位分析
TWAS_FOCUS_Multi_test.Rd
该函数使用FOCUS软件进行多种组织精细定位(fine-mapping)分析。更多信息请访问官网:https://github.com/mancusolab/ma-focus。
Usage
TWAS_FOCUS_Multi_test(
finemap_help = FALSE,
Sumstatsfile = "./UC.sumstats.gz",
ref_ld = "./1000G_EUR_Phase3_plink/1000G.EUR.QC.",
weights_file = "./FOCUS_WEIGHTS",
start_chr = 1,
end_chr = 22,
plot = TRUE,
locations = "38:EUR",
prior_prob = "gencode38",
p_threshold = 5e-08,
opt_arguments = NULL,
pip_sig = 0.9,
save_name = "UC",
save_path = "./UC",
cores = 2
)
Arguments
- finemap_help
逻辑值,是否调阅FOCUS软件finemap的帮助文档,默认值为
FALSE
。- Sumstatsfile
字符串,GWAS总结统计文件路径,格式为
.sumstats.gz
,使用TWAS_FOCUS_format_data()
函数转换获得。- ref_ld
字符串,PLINK格式的参考面板数据路径,填写至文件前缀,不包含序号。下载地址:https://console.cloud.google.com/storage/browser/broad-alkesgroup-public-requester-pays/LDSCORE。
- weights_file
字符串,FOCUS分析所需权重数据
.db
文件的文件夹路径。- start_chr
整数,分析的起始染色体序号。
- end_chr
整数,分析的终止染色体序号。
- plot
逻辑值,是否绘制fine-mapping图,默认值为
TRUE
。- locations
字符串,指定独立区域,例如
'37:EUR'
,'37:AFR'
等。可选值包括多个预设的地理或人群组合。- prior_prob
字符串或数值,因果关系基因的先验概率类型。可选值为
'gencode37'
、'gencode38'
或固定数值(如1e-3
)。- p_threshold
数值,执行TWAS精细定位所需的最小GWAS p值显著性阈值,默认值为
5e-8
。- opt_arguments
字符串,FOCUS软件finemap的其他命令行参数,默认值为
NULL
。- pip_sig
数值,pip的显著性阈值,范围在0到1之间,默认值为
0.9
。- save_name
字符串,结果保存文件的文件名称。
- save_path
字符串,结果文件保存路径。
- cores
整数,使用的并行运算线程数,默认值为
2
。
Value
生成多个 CSV 结果文件,每行代表一个基因在特定表型下的 TWAS + 精细定位(fine-mapping)分析结果,包含以下字段:
block: 独立基因组区域,格式为 chrom:start-chrom:stop。
ens_gene_id: Ensembl 基因 ID。
ens_tx_id: Ensembl 转录本 ID。
mol_name: 基因、长链非编码 RNA(lncRNA)、假基因等分子特征的名称。
tissue: 原始基因表达数据测定的组织类型。
ref_name: QTL 参考面板的名称。
type: 分子特征类别(如基因、lncRNA、lincRNA、假基因)。
chrom: 染色体编号。
tx_start: 转录起始位点。
tx_stop: 转录终止位点。
block_genes: 该基因组区域中的基因数目,用于设定某个基因为因果基因的先验概率。
inference_pop1: 用于模型推断的统计方法(例如 LASSO, BSLMM)。
inter_z_pop1: 在回归去除平均表型效应时的 Z-score 截距(如果
intercept = False
,则该值为 None)。cv.R2_pop1: 交叉验证的预测 R²,衡量模型的预测能力。
cv.R2.pval_pop1: 交叉验证 R² 对应的 p 值。
twas_z_pop1: 该基因的边际 TWAS Z-score,表示其对表型的预测性。
pip_pop1: 该基因的边际后验包含概率(Posterior Inclusion Probability, PIP),衡量其作为因果基因的可能性。
in_cred_set_pop1: 是否包含在可信集合(credible set)中的标记变量(1 表示包含,0 表示不包含)。
ldregion_pop1: 参考基因组中 LD(连锁不平衡)区域的信息。