使用HDL进行高精度似然推断遗传相关性分析

该函数基于GWAS汇总统计数据返回两个性状之间的遗传相关性估计值和标准误差。

Usage

HDL_rg(
  GWASfile = c("./XXX_MTAG.txt", "./XXX_MTAG_IEU.txt"),
  LD.path,
  Nref = 335265,
  N0 = NULL,
  eigen.cut = "automatic",
  jackknife.df = FALSE,
  intercept.output = FALSE,
  fill.missing.N = NULL,
  lim = exp(-18),
  verbose = FALSE,
  save_name = "rg",
  save_path = "./HDL"
)

Arguments

GWASfile: 字符串，包含两个MTAG格式的GWAS数据文件的路径，如c("./XXX_MTAG.txt", "./XXX_MTAG_IEU.txt")，可由format_dat()转换获得。
LD.path: 字符串，指定存储连锁不平衡（LD）信息的目录路径。
Nref: 数值，计算LD的参考样本的样本量。若使用默认的英国生物样本库参考样本，Nref = 335265。
N0: 数值，两个队列中共同包含的个体数。估算的遗传相关性对错误指定的N0通常具有鲁棒性。若为NULL（默认值），默认值设置为队列1和队列2所有SNP中的最小样本量。
eigen.cut: 数值，指定在每个LD得分矩阵中用于HDL的特征值和特征向量。用户可选择0到1之间的数值，例如eigen.cut = 0.99表示使用解释99%方差的主成分特征值及其对应的特征向量。如果使用默认值“automatic”，将采用生成最稳定遗传率估计的eigen.cut。
jackknife.df: 逻辑值，默认为FALSE。是否返回分块删失估计。
intercept.output: 逻辑值，默认为FALSE。是否在estimates.df中包含截距项。
fill.missing.N: 若为NULL（默认值），将移除缺失N的SNP。可以指定“median”、“min”或“max”以相应填补缺失的N。例如，“median”表示使用有N值的SNP的中位数填充缺失值。
lim: 数值，公差限制，默认值为lim = exp(-18)。
verbose: 逻辑值，默认为FALSE。是否在控制台打印遗传协方差优化过程。
save_name: 字符串，保存文件的文件名称。
save_path: 字符串，文件保存路径。

Value

返回一个列表，包含以下内容：

rg 估算的遗传相关性。
rg.se 估算的遗传相关性的标准误。
P 基于Wald检验的P值。
estimates.df 包含遗传率估计值及标准误、遗传协方差和遗传相关性的详细矩阵。
eigen.use 计算中使用的eigen.cut值。

Note

用户可以下载预计算的欧洲人群LD相关矩阵的特征值和特征向量，下载链接：https://github.com/zhenin/HDL/wiki/Reference-panels 这些LD矩阵及其特征分解基于335,265名来自英国生物样本库的英国基因组个体。提供了两组参考面板：

307,519个已质量控制的英国生物样本库Axiom Array SNPs，解压后大小约为7.5 GB。
1,029,876个已质量控制的英国生物样本库填补SNPs，解压后大小约为31 GB。尽管耗时更长，填补面板提供的遗传相关性估计更为精确。若GWAS包含大部分HapMap3 SNPs，建议使用填补参考面板。

References

Ning Z, Pawitan Y, Shen X. High-definition likelihood inference of genetic correlations across human complex traits. Nat Genet. 2020 Aug;52(8):859-864.

Author

Zheng Ning, Xia Shen