使用 LAVA 包对所有基因组位点执行双变量遗传相关性分析

软件官网：https://github.com/josefin-werme/LAVA。

Usage

LAVA_run(
  GWASfile = c("./XXX_MTAG_IEU.txt", "./XXX_MTAG_FinnGen.txt"),
  GWAS_name = c("XXX", "XXX"),
  cases = c(5000, 12000),
  controls = c(14000, 480000),
  sample_overlap_file = "./sample.overlap.txt",
  ref_prefix = "./g1000_eur/g1000_eur",
  loci_file = "blocks_s2500_m25_f1_w200.GRCh37_hg19.locfile",
  loci_num = NULL,
  phenos = NULL,
  target = NULL,
  min.K = 2,
  prune.thresh = 99,
  max.prop.K = 0.75,
  drop.failed = TRUE,
  univ.p.thresh = 0.05,
  adap.thresh = c(1e-04, 1e-06),
  param.lim = 1.25,
  save_path = "./LAVA",
  cores = 4
)

Arguments

GWASfile: 字符串，包含两个或多个MTAG格式的GWAS数据文件的路径，如c("./XXX_MTAG.txt", "./XXX_MTAG_IEU.txt")，可由format_dat()转换获得。GWAS数据的人类参考基因组版本需转换为GRCh37。
GWAS_name: 字符串向量，GWAS 文件对应的性状名称，每个名称与 GWASfile 中的文件一一对应。
cases: 整数向量，每个性状的病例样本数，按 GWAS_name 中性状的顺序提供。连续型GWAS数据中的病例样本数可为NA。
controls: 整数向量，每个性状的对照样本数，按 GWAS_name 中性状的顺序提供。连续型GWAS数据中的对照样本数可为NA。
sample_overlap_file: 字符串，描述 GWAS 样本间重叠情况的文件路径，可使用LAVA_sample_overlap()函数获取。若无样本重叠，可填写NULL。
ref_prefix: 字符串，基因组参考数据的文件前缀，如1KG欧洲人群参考文件。下载地址：https://cncr.nl/research/lava/。
loci_file: 字符串，位点信息文件的路径，包含基因组块划分信息（如染色体、起始位置、终止位置和SNP列表）。下载地址：https://github.com/josefin-werme/LAVA/blob/main/support_data/blocks_s2500_m25_f1_w200.GRCh37_hg19.locfile。
loci_num: 整数向量，指定要分析的位点范围（起始和终止的索引号），如c(1,100)。若为NULL，则分析文件中的所有位点。
phenos: 字符串向量，要分析的表型子集及其顺序。若为NULL，则分析位点对象中的所有表型（按位点对象中列出的顺序）。
target: 字符串，感兴趣的目标表型。如果为NULL，将计算所有表型对之间的双变量相关性；否则，将仅计算目标表型与其他所有表型之间的双变量相关性。
min.K: 整数，处理位点所需的最小主成分（PC）数量（至少为 2）。若不满足此条件，函数将失败。
prune.thresh: 数字，主成分选择时的累计解释方差阈值（百分比），默认值为 99。
max.prop.K: 数字，主成分数量的上限，占输入数据最小样本量的比例，默认值为 0.75。
drop.failed: 布尔值，指示是否从输出中移除处理失败的性状。默认值为 TRUE。
univ.p.thresh: 数字，单变量测试的显著性阈值，筛选满足局部遗传力要求的性状。默认值为 0.05，建议设置为 0.05/2495。
adap.thresh: 数字向量，自适应阈值，用于调整 p 值生成的迭代次数。默认值为 c(1e-04, 1e-06)。默认迭代次数为 1e+4，若 p 值低于这些阈值，将增加到 1e+5 或 1e+6。若为 NULL，最大迭代次数将限制为默认值。
param.lim: 数字，参数估计的阈值，超出该正负阈值的估计参数将被视为不可靠并设置为 NA。默认值为 1.25。
save_path: 字符串，保存分析结果的路径，默认值为当前目录的 ./LAVA。
cores: 整数，进行并行计算时使用的核心数。默认值为 4。

Value

数据框，双变量遗传相关性分析的结果。