通用GWAS数据清洗与格式转换
format_dat.Rd
TwoSampleMR::format_data()函数的改进版,可自动保存标准TwosampleMR、SMR、METAL、MTAG分析文件。
Usage
format_dat(
dat,
type = "exposure",
snps = NULL,
header = TRUE,
phenotype_col = "Phenotype",
snp_col = "SNP",
beta_col = "beta",
se_col = "se",
eaf_col = "eaf",
effect_allele_col = "effect_allele",
other_allele_col = "other_allele",
pval_col = "pval",
units_col = "units",
ncase_col = "ncase",
ncontrol_col = "ncontrol",
samplesize_col = "samplesize",
gene_col = "gene",
id_col = "id",
min_pval = 1e-200,
z_col = "z",
info_col = "info",
chr_col = "chr",
pos_col = "pos",
log_pval = FALSE,
Twosample_dat = FALSE,
SMR_dat = FALSE,
MTAG_dat = FALSE,
GWASinspector_dat = FALSE,
METAL_dat = FALSE,
GWAS_name = "GWAS",
save_path = "./"
)
Arguments
- dat
数据框或字符串,读入至R环境中的GWAS数据或GWAS文件路径。
- type
字符串,指定数据转换的类型,
"exposure"
或"outcome"
。默认为"exposure"
。- snps
字符串向量,需提取的SNP。如果为NULL,则不提取任何SNP并保留所有数据。默认为
NULL
。- header
布尔值,数据是否包含标题,默认为
TRUE
。- phenotype_col
字符串,可选,表示SNP对应的表型名称。默认为
"Phenotype"
。- snp_col
字符串,必填,包含rsid数据的列名。默认为
"SNP"
。- beta_col
字符串,必填,效应值大小列名。默认为
"beta"
。- se_col
字符串,必填,标准误列名。默认为
"se"
。- eaf_col
字符串,非必填,效应等位基因频率列名。默认为
"eaf"
。若数据缺失,可能影响后续分析。- effect_allele_col
字符串,必填,效应等位基因列名。默认为
"effect_allele"
。- other_allele_col
字符串,必填,非效应等位基因列名。默认为
"other_allele"
。- pval_col
字符串,必填,P值列名,表示统计学差异显著性检验指标。默认为
"pval"
。- units_col
字符串,可选,表示单位的列名。默认为
"units"
。- ncase_col
字符串,可选,表示病例数的列名。默认为
"ncase"
。- ncontrol_col
字符串,可选,表示对照数的列名。默认为
"ncontrol"
。- samplesize_col
字符串,可选,表示样本量的列名。默认为
"samplesize"
。- gene_col
字符串,可选,表示基因名称的列名。默认为
"gene"
。- id_col
字符串,可选,表示样本ID的列名。默认为
"id"
。- min_pval
数值,允许的最小p值。默认为
1e-200
。- z_col
字符串,可选,表示Z分数的列名。默认为
"z"
。- info_col
字符串,可选,表示信息列名。默认为
"info"
。- chr_col
字符串,可选,表示染色体的列名。默认为
"chr"
,建议填写。- pos_col
字符串,可选,表示坐标的列名。默认为
"pos"
,建议填写。- log_pval
布尔值,指定p值是否为-log10(P)。默认为
FALSE
。- Twosample_dat
布尔值,指定是否保存TwosampleMR数据文件,默认为
FALSE
。- SMR_dat
布尔值,指定是否保存SMR数据文件,默认为
FALSE
。- MTAG_dat
布尔值,指定是否保存MTAG分析输入数据文件,默认为
FALSE
。- GWASinspector_dat
布尔值,指定是否保存GWASinspector分析输入数据文件,默认为
FALSE
。- METAL_dat
布尔值,指定是否保存METAL分析输入数据文件,默认为
FALSE
。- GWAS_name
字符串,指定输出文件名称。
- save_path
字符串,指定输出文件保存的目录,默认为当前工作路径。