将GWAS Catalog数据库.gz或.tsv文件清洗与格式转换
format_data_Catalog.Rd
将GWAS Catalog数据库.gz或.tsv文件转换为标准TwosampleMR、SMR、METAL、MTAG分析文件。 GWAS Catalog官网:https://www.ebi.ac.uk/gwas/home,请不要修改下载后的文件名。
Usage
format_data_Catalog(
GWASfile = " ",
GWAS_name = " ",
type = "outcome",
snp_col = "variant_id",
beta_col = "beta",
se_col = "standard_error",
eaf_col = "effect_allele_frequency",
effect_allele_col = "effect_allele",
other_allele_col = "other_allele",
pval_col = "p_value",
chr_col = "chromosome",
pos_col = "base_pair_location",
samplesize,
min_pval = 1e-200,
get_SNP = FALSE,
build = NULL,
save_path = "./",
Twosample_dat = TRUE,
SMR_dat = TRUE,
MTAG_dat = TRUE,
GWASinspector_dat = FALSE,
METAL_dat = TRUE
)
Arguments
- GWASfile
字符串,GWAS Catalog数据库.gz或.tsv文件的路径。
- GWAS_name
字符串,指定输出文件名称。
- type
字符串,Twosample数据类型,"exposure"或"outcome",默认为"outcome"。
- snp_col
字符串,必填,SNP列的名称,默认为"variant_id",如果需要get_SNP,建议填写"SNP"。
- beta_col
字符串,必填,Beta值列的名称,默认为"beta"。
- se_col
字符串,必填,标准误列的名称,默认为"standard_error"。
- eaf_col
字符串,非必填,效应等位基因频率列的名称,默认为"effect_allele_frequency"。
- effect_allele_col
字符串,必填,效应等位基因列的名称,默认为"effect_allele"。
- other_allele_col
字符串,必填,次要等位基因列的名称,默认为"other_allele"。
- pval_col
字符串,必填,P值列的名称,默认为"p_value"。
- chr_col
字符串,必填,染色体列的名称,默认为"chromosome"。
- pos_col
字符串,必填,坐标列的名称,默认为"base_pair_location"。
- samplesize
数值,必填,指定GWAS数据的总样本量。
- min_pval
数值,允许的最小p值,默认为
1e-200
。- get_SNP
布尔值,是否将chrpos转换成SNP,默认为FALSE。
- build
字符串,当get_SNP=TRUE时,指定GWAS的人类参考基因组版本,37或38,默认为NULL,则根据文件名获取基因组版本。
- save_path
字符串,指定输出文件保存的目录,默认为当前工作路径。
- Twosample_dat
布尔值,是否保存TwosampleMR数据文件,默认为TRUE。
- SMR_dat
布尔值,是否保存SMR数据文件,默认为TRUE。
- MTAG_dat
布尔值,是否保存MTAG分析输入数据文件,默认为TRUE。
- GWASinspector_dat
布尔值,指定是否保存GWASinspector分析输入数据文件,默认为
FALSE
。- METAL_dat
布尔值,是否保存METAL分析输入数据文件,默认为TRUE。