将GWAS Catalog数据库.gz或.tsv文件清洗与格式转换
format_data_Catalog.Rd
将GWAS Catalog数据库.gz或.tsv文件转换为标准TwosampleMR、SMR、METAL、MTAG分析文件, GWAS Catalog官网:https://www.ebi.ac.uk/gwas/home,请不要修改下载后的文件名。
Usage
format_data_Catalog(
GWASfile = " ",
GWAS_name = " ",
type = "outcome",
snp_col = "variant_id",
beta_col = "beta",
se_col = "standard_error",
eaf_col = "effect_allele_frequency",
effect_allele_col = "effect_allele",
other_allele_col = "other_allele",
pval_col = "p_value",
chr_col = "chromosome",
pos_col = "base_pair_location",
samplesize,
min_pval = 1e-200,
get_SNP = FALSE,
build = NULL,
save_path = "./",
Twosample_dat = TRUE,
SMR_dat = TRUE,
MTAG_dat = TRUE,
METAL_dat = TRUE
)
Arguments
- GWASfile
指定GWAS Catalog数据库.gz或.tsv文件的路径。
- GWAS_name
指定输出文件名称。
- type
Twosample数据类型,"exposure"或"outcome",默认为"outcome"。
- snp_col
必填,SNP列的名称,默认为"variant_id",如果需要get_SNP,建议填写"SNP"。
- beta_col
必填,Beta值列的名称,默认为"beta"。
- se_col
必填,标准误列的名称,默认为"standard_error"。
- eaf_col
非必填,效应等位基因频率列的名称,默认为"effect_allele_frequency"。
- effect_allele_col
必填,效应等位基因列的名称,默认为"effect_allele"。
- other_allele_col
必填,次要等位基因列的名称,默认为"other_allele"。
- pval_col
必填,P值列的名称,默认为"p_value"。
- chr_col
必填,染色体列的名称,默认为"chromosome"。
- pos_col
必填,坐标列的名称,默认为"base_pair_location"。
- samplesize
必填,数值,指定GWAS数据的总样本量。
- min_pval
允许的最小p值。默认为
1e-200
。- get_SNP
TRUE或FALSE,是否将chrpos转换成SNP,默认为FALSE。
- build
get_SNP=TRUE时,需要指定GWAS的人类参考基因组版本,37或38,默认为NULL,则根据文件名获取基因组版本。
- save_path
指定输出文件将保存的目录,默认为当前工作路径下。
- Twosample_dat
TRUE或FALSE,是否保存TwosampleMR数据文件,默认为TRUE。
- SMR_dat
TRUE或FALSE,是否保存SMR数据文件,默认为TRUE。
- MTAG_dat
TRUE或FALSE,是否保存MTAG分析输入数据文件,默认为TRUE。
- METAL_dat
TRUE或FALSE,是否保存metal分析输入数据文件,默认为TRUE。