使用FOCUS软件进行多种组织精细定位分析
TWAS_FOCUS_Multi_test.Rd
软件官网:https://github.com/mancusolab/ma-focus。
Usage
TWAS_FOCUS_Multi_test(
finemap_help = FALSE,
Sumstatsfile = "./UC.sumstats.gz",
ref_ld = "./1000G_EUR_Phase3_plink/1000G.EUR.QC.",
weights_file = "./FOCUS_WEIGHTS",
start_chr = 1,
end_chr = 22,
plot = TRUE,
locations = "38:EUR",
prior_prob = "gencode38",
p_threshold = 5e-08,
opt_arguments = NULL,
pip_sig = 0.9,
save_name = "UC",
save_path = "./UC",
cores = 2
)
Arguments
- finemap_help
是否调阅FOCUS软件finemap的帮助文档,默认FALSE。
- Sumstatsfile
.sumstats.gz格式文件路径。使用TWAS_FOCUS_format_data()函数转换获得。
- ref_ld
PLINK格式的参考面板数据的文件路径,只填写到不包含序号的文件前缀,下载地址:https://console.cloud.google.com/storage/browser/broad-alkesgroup-public-requester-pays/LDSCORE。
- weights_file
FOCUS分析所需权重数据.db文件的文件夹路径。
- start_chr
需要分析的染色体起始序号。
- end_chr
需要分析的染色体终止序号。
- plot
是否绘制fine-mapping图,默认TRUE。
- locations
通过指定以下选项使用默认的独立区域'37:EUR', '37:AFR', '37:EAS','37:EUR-AFR', '37:EUR-EAS', '37:EAS-AFR', '37:EUR-EAS-AFR', '38:EUR', '38:AFR', '38:EAS','38:EUR-AFR', '38:EUR-EAS', '38:EAS-AFR', '38:EUR-EAS-AFR'。
- prior_prob
具有因果关系基因的先验概率类型名称,'gencode37'或'gencode38'或使用一个固定的数值概率,例如直接指定1e-3。
- p_threshold
执行TWAS精细定位所需的最小GWAS p值显著性阈值,默认5e-8。
- opt_arguments
FOCUS软件finemap的其他命令行参数(设置finemap_help = TRUE查看),默认NULL。
- pip_sig
pip的显著性阈值,0-1之间,默认0.9。
- save_name
保存文件的文件名称。
- save_path
文件保存路径。
- cores
并行运算电脑的线程数。
Value
生成多个 CSV 结果文件,每行代表一个基因在特定表型下的 TWAS + 精细定位(fine-mapping)分析结果,包含以下字段:
block: 独立基因组区域,格式为 chrom:start-chrom:stop。
ens_gene_id: Ensembl 基因 ID。
ens_tx_id: Ensembl 转录本 ID。
mol_name: 基因、长链非编码 RNA(lncRNA)、假基因等分子特征的名称。
tissue: 原始基因表达数据测定的组织类型。
ref_name: QTL 参考面板的名称。
type: 分子特征类别(如基因、lncRNA、lincRNA、假基因)。
chrom: 染色体编号。
tx_start: 转录起始位点。
tx_stop: 转录终止位点。
block_genes: 该基因组区域中的基因数目,用于设定某个基因为因果基因的先验概率。
inference_pop1: 用于模型推断的统计方法(例如 LASSO, BSLMM)。
inter_z_pop1: 在回归去除平均表型效应时的 Z-score 截距(如果
intercept = False
,则该值为 None)。cv.R2_pop1: 交叉验证的预测 R²,衡量模型的预测能力。
cv.R2.pval_pop1: 交叉验证 R² 对应的 p 值。
twas_z_pop1: 该基因的边际 TWAS Z-score,表示其对表型的预测性。
pip_pop1: 该基因的边际后验包含概率(Posterior Inclusion Probability, PIP),衡量其作为因果基因的可能性。
in_cred_set_pop1: 是否包含在可信集合(credible set)中的标记变量(1 表示包含,0 表示不包含)。
ldregion_pop1: 参考基因组中 LD(连锁不平衡)区域的信息。