使用 LAVA 包对所有基因组位点执行双变量遗传相关性分析
LAVA_run.Rd
软件官网:https://github.com/josefin-werme/LAVA。
Usage
LAVA_run(
GWASfile = c("./XXX_MTAG_IEU.txt", "./XXX_MTAG_FinnGen.txt"),
GWAS_name = c("XXX", "XXX"),
cases = c(5000, 12000),
controls = c(14000, 480000),
sample_overlap_file = "./sample.overlap.txt",
ref_prefix = "./g1000_eur/g1000_eur",
loci_file = "blocks_s2500_m25_f1_w200.GRCh37_hg19.locfile",
loci_num = NULL,
phenos = NULL,
target = NULL,
min.K = 2,
prune.thresh = 99,
max.prop.K = 0.75,
drop.failed = TRUE,
univ.p.thresh = 0.05,
adap.thresh = c(1e-04, 1e-06),
param.lim = 1.25,
save_path = "./LAVA",
cores = 4
)
Arguments
- GWASfile
包含两个MTAG格式的GWAS数据文件的路径,如c("./XXX_MTAG.txt", "./XXX_MTAG_IEU.txt"),可由format_dat()转换获得,注意:GWAS数据的人类参考基因组版本需转换为GRCh37。
- GWAS_name
GWAS 文件对应的性状名称向量。每个名称与
GWASfile
中的文件一一对应。- cases
每个性状的病例样本数向量,与
GWAS_name
中的性状一一对应,如c(1000,NA,1200),连续型GWAS数据的中的病例样本数为NA。- controls
每个性状的对照样本数向量,与
GWAS_name
中的性状一一对应,如c(3000,NA,36000),连续型GWAS数据的中的对照样本数为NA。- sample_overlap_file
样本重叠信息文件的路径,描述 GWAS 样本间的重叠情况,使用LAVA_sample_overlap()函数获取。无样本重叠时,可以填写NULL。
- ref_prefix
基因组参考数据的文件前缀,例如 1KG 欧洲人群的参考文件。下载地址:https://cncr.nl/research/lava/,与MAGMA分析的输入文件一致。
- loci_file
位点信息文件的路径,包含基因组块划分信息(如染色体、起始位置、终止位置和 SNP 列表)。下载地址:https://github.com/josefin-werme/LAVA/blob/main/support_data/blocks_s2500_m25_f1_w200.GRCh37_hg19.locfile。
- loci_num
要分析的位点范围(起始和终止的索引号),如c(1,100)。若为 NULL 则分析文件中的所有位点。
- phenos
要分析的表型子集及其顺序。如果为NULL,将分析位点对象中的所有表型(按位点对象中列出的顺序)。
- target
感兴趣的目标表型。如果为NULL,将计算所有表型对之间的双变量相关性;否则,将仅计算目标表型与其他所有表型之间的双变量相关性。
- min.K
处理位点所需的最小主成分(PC)数量(不能少于 2)。如果不满足此条件,函数将失败,无法分析该位点。
- prune.thresh
主成分选择时的累计解释方差阈值(百分比),默认值为 99。
- max.prop.K
主成分数量的上限,占输入数据最小样本量的比例,默认值为 0.75。
- drop.failed
布尔值,指示是否从输出中移除处理失败的性状。默认值为 TRUE。
- univ.p.thresh
单变量测试的显著性阈值,用于筛选满足局部遗传力要求的性状,默认为0.05,建议0.05/2495。
- adap.thresh
自适应阈值向量,用于调整 p 值生成的迭代次数。默认值为
c(1e-04, 1e-06)
。默认迭代次数为 1e+4,但当 p 值低于这些阈值时,将增加到 1e+5 和 1e+6。 如果设为 NULL,最大迭代次数将限制为默认值(注意:这会显著加速分析,但会降低低 p 值时的准确性)。- param.lim
参数估计的阈值,超出该正负阈值的估计参数将被认为不可靠,将被设置为 NA,默认值为 1.25。
- save_path
保存分析结果的路径,默认值为当前目录的
./LAVA
。- cores
并行计算时使用的核心数。默认值为 4。