基于SMR软件的孟德尔随机化分析
SMR_multi_HEIDI.Rd
这个函数利用SMR软件进行遗传因素与表型特征相关性分析。它用于检测给定基因与GWAS信号之间的相关性,并提供分析结果。
Usage
SMR_multi_HEIDI(
GWAS_file = " ",
GWAS_name = " ",
xQTL_file = " ",
bfile_1000G = "./1.data/1000G/EUR",
Gene_name = NULL,
save_path = "./",
diff_freq = 0.2,
diff_freq_prop = 0.05,
MAF = 0.01,
cis_wind = 2000,
pval = 5e-08,
smr_multi = TRUE,
smr_multi_set_wind = NULL,
smr_multi_ld_snp = 0.1,
heidi_mtd = 1,
HEIDI_test_pval = 0.00157,
ld_upper = 0.9,
ld_lower = 0.05,
nSNPs_min = 3,
nSNPs_max = 20,
thread_num = 4
)
Arguments
- GWAS_file
GWAS数据文件路径,其文件格式为".ma"。
- GWAS_name
GWAS数据的名称。
- xQTL_file
xQTL数据文件路径。
- bfile_1000G
千人基因组参考面板数据文件的前缀路径(如:
./1.data/1000G/EUR
)。- Gene_name
要分析的基因名称,默认为NULL时,则对所有基因分析。
- save_path
结果保存路径,默认为"./"。
- diff_freq
对等位基因频率进行质量控制,如果SNP的效应等位基因频率差异在两两配对的数据集中(包括the LD reference sample, the eQTL summary data and the GWAS summary data)的超过指定的差异阈值,将排除该SNP。默认为0.2。
- diff_freq_prop
SMR分析中,允许具有等位基因频率差异的的SNP的最大比例。如果由diff_freq排除的SNP比率大于diff_freq_prop指定的阈值,SMR分析将停止(提示错误信息)。默认值为0.05。
- MAF
根据参考样本中的次要等位基因频率(MAF)阈值去除SNP,默认值为0.01。maf的取值范围在0-0.5。
- cis_wind
SMR分析中,定义一个以探针为中心的染色体范围,以选择cis-eQTL(通过p值阈值)进行SMR分析。默认值为2000Kb。
- pval
筛选用于SMR分析的top显著相关QTL(如eQTL)的p值,默认为5.0e-8。
- smr_multi
是否进行基于多个SNP的smr分析,默认为TRUE,反之则使用top snp进行SMR分析。
- smr_multi_set_wind
选定基于多个snp进行SMR分析的基因区域,定义最显著cis-QTL为中心的染色体区域。 默认是选择smr_cis_wind内所有的snp进行SMR分析,默认为NULL。反之,可进行自己指定,如500kb,写作500。
- smr_multi_ld_snp
除纳入SMR分析的QTLs(如eQTL)中存在连锁不平衡的QTLs,默认值是0.1。
- heidi_mtd
HEIDI检验中,指定一个方法进行HEIDI检验。0是最初的原始HEIDI检验,由Zhu et al (2016 Nature Genetics)提出;1是新的HEIDI检验,模拟结果表明,使用cis-eQTL区域中排名前20位的SNP(按照p值进行排序)进行异质性测试,HEIDI测试的功效最初增加,但随着SNP数量(m)的增加而降低,峰值在m = ~20。默认值为1。
- HEIDI_test_pval
HEIDI检验中,筛选用于HEIDI检验的QTL的p值,默认p值为1.57e-3,相当于卡方值(df=1)10。
- ld_upper
HEIDI检验中,用于排除与top SNP存在显著连锁不平衡的QTL(如eQTL),默认值是0.9。
- ld_lower
HEIDI检验中,用于排除与top SNP不存在连锁不平衡或者微弱连锁不平衡的QTL(如eQTL),默认值是0.05。
- nSNPs_min
HEIDI检验中,使用顺式snp数量的最小数量,小于该阈值将不进行HEIDI检验。因为如果SNP的数量太少,HEIDI测试检测异质性的能力很小,并可能产生误导性的结果。默认值为3。
- nSNPs_max
HEIDI检验中,使用顺式snp数量的最大数量,如果经过LD筛选后的cis-SNP的数量大于m,则仅使用前m个SNP进行HEIDI检验(按照QTL的p值进行排序),默认值为20。
- thread_num
指定用于并行计算的线程数。默认值为4。
Value
返回一个 数据框(data frame),包含 SMR(Summary-based Mendelian Randomization) 和 HEIDI(Heterogeneity in Dependent Instruments) 分析结果。 主要包括以下列:
probe_ID: 探针 ID(对应目标基因)。
probe_chr: 探针所在的染色体编号。
gene_name: 目标基因名称。
probe_position: 探针的基因组位置(bp)。
trans_eQTL_chr: 跨染色体 eQTL 的染色体编号(仅适用于 trans-eQTL 分析)。
trans_region_start: trans-eQTL 区域的起始位置(bp)。
trans_region_end: trans-eQTL 区域的终止位置(bp)。
SNP_name: 关联 SNP(rsID)。
SNP_chr: SNP 所在染色体编号。
SNP_position: SNP 在基因组上的位置(bp)。
effect_allele: 作用等位基因(Coded Allele)。
other_allele: 另一等位基因(Reference Allele)。
effect_allele_freq: 作用等位基因的频率(基于参考样本估计)。
GWAS_beta: GWAS 研究中该 SNP 的效应大小(Beta)。
GWAS_SE: GWAS 研究中 Beta 的标准误(Standard Error)。
GWAS_p: GWAS 研究中该 SNP 的 P 值。
eQTL_beta: eQTL 研究中该 SNP 的效应大小(Beta)。
eQTL_SE: eQTL 研究中 Beta 的标准误。
eQTL_p: eQTL 研究中该 SNP 的 P 值。
SMR_beta: SMR 分析 计算得到的因果效应大小(Beta)。
SMR_SE: SMR 分析 计算得到的 Beta 标准误。
SMR_p: SMR 分析 计算得到的 P 值。
HEIDI_p: HEIDI 检验 计算得到的 P 值(用于检测 SNP 是否可能存在多效性)。
HEIDI_nSNP: HEIDI 检验 中使用的 SNP 数量。