通用GWAS数据清洗与格式转换
format_dat.RdTwoSampleMR::format_data()函数的改进版,可自动保存标准TwosampleMR、SMR、METAL、MTAG分析文件。
Usage
format_dat(
dat,
type = "exposure",
snps = NULL,
header = TRUE,
phenotype_col = "Phenotype",
snp_col = "SNP",
beta_col = "beta",
se_col = "se",
eaf_col = "eaf",
effect_allele_col = "effect_allele",
other_allele_col = "other_allele",
pval_col = "pval",
units_col = "units",
ncase_col = "ncase",
ncontrol_col = "ncontrol",
samplesize_col = "samplesize",
gene_col = "gene",
id_col = "id",
min_pval = 1e-200,
z_col = "z",
info_col = "info",
chr_col = "chr",
pos_col = "pos",
log_pval = FALSE,
Twosample_dat = FALSE,
SMR_dat = FALSE,
MTAG_dat = FALSE,
GWASinspector_dat = FALSE,
METAL_dat = FALSE,
GWAS_name = "GWAS",
save_path = "./"
)Arguments
- dat
数据框或字符串,读入至R环境中的GWAS数据或GWAS文件路径。
- type
字符串,指定数据转换的类型,
"exposure"或"outcome"。默认为"exposure"。- snps
字符串向量,需提取的SNP。如果为NULL,则不提取任何SNP并保留所有数据。默认为
NULL。- header
布尔值,数据是否包含标题,默认为
TRUE。- phenotype_col
字符串,可选,表示SNP对应的表型名称。默认为
"Phenotype"。- snp_col
字符串,必填,包含rsid数据的列名。默认为
"SNP"。- beta_col
字符串,必填,效应值大小列名。默认为
"beta"。- se_col
字符串,必填,标准误列名。默认为
"se"。- eaf_col
字符串,非必填,效应等位基因频率列名。默认为
"eaf"。若数据缺失,可能影响后续分析。- effect_allele_col
字符串,必填,效应等位基因列名。默认为
"effect_allele"。- other_allele_col
字符串,必填,非效应等位基因列名。默认为
"other_allele"。- pval_col
字符串,必填,P值列名,表示统计学差异显著性检验指标。默认为
"pval"。- units_col
字符串,可选,表示单位的列名。默认为
"units"。- ncase_col
字符串,可选,表示病例数的列名。默认为
"ncase"。- ncontrol_col
字符串,可选,表示对照数的列名。默认为
"ncontrol"。- samplesize_col
字符串,可选,表示样本量的列名。默认为
"samplesize"。- gene_col
字符串,可选,表示基因名称的列名。默认为
"gene"。- id_col
字符串,可选,表示样本ID的列名。默认为
"id"。- min_pval
数值,允许的最小p值。默认为
1e-200。- z_col
字符串,可选,表示Z分数的列名。默认为
"z"。- info_col
字符串,可选,表示信息列名。默认为
"info"。- chr_col
字符串,可选,表示染色体的列名。默认为
"chr",建议填写。- pos_col
字符串,可选,表示坐标的列名。默认为
"pos",建议填写。- log_pval
布尔值,指定p值是否为-log10(P)。默认为
FALSE。- Twosample_dat
布尔值,指定是否保存TwosampleMR数据文件,默认为
FALSE。- SMR_dat
布尔值,指定是否保存SMR数据文件,默认为
FALSE。- MTAG_dat
布尔值,指定是否保存MTAG分析输入数据文件,默认为
FALSE。- GWASinspector_dat
布尔值,指定是否保存GWASinspector分析输入数据文件,默认为
FALSE。- METAL_dat
布尔值,指定是否保存METAL分析输入数据文件,默认为
FALSE。- GWAS_name
字符串,指定输出文件名称。
- save_path
字符串,指定输出文件保存的目录,默认为当前工作路径。