通用GWAS数据清洗与格式转换
format_dat.Rd
TwoSampleMR::format_data()函数的改进版,可自动保存标准TwosampleMR、SMR、METAL、MTAG分析文件。
Usage
format_dat(
dat,
type = "exposure",
snps = NULL,
header = TRUE,
phenotype_col = "Phenotype",
snp_col = "SNP",
beta_col = "beta",
se_col = "se",
eaf_col = "eaf",
effect_allele_col = "effect_allele",
other_allele_col = "other_allele",
pval_col = "pval",
units_col = "units",
ncase_col = "ncase",
ncontrol_col = "ncontrol",
samplesize_col = "samplesize",
gene_col = "gene",
id_col = "id",
min_pval = 1e-200,
z_col = "z",
info_col = "info",
chr_col = "chr",
pos_col = "pos",
log_pval = FALSE,
Twosample_dat = FALSE,
SMR_dat = FALSE,
MTAG_dat = FALSE,
METAL_dat = FALSE,
GWAS_name = "GWAS",
save_path = "./"
)
Arguments
- dat
读入至R环境中的GWAS数据或GWAS文件路径。
- type
指定数据转换的类型,
"exposure"
或"outcome"
。默认为"exposure"
。- snps
需要提取的SNP。如果为NULL,则不提取任何SNP并保留所有数据。默认为
NULL
。- header
数据是否包含标题。默认为
TRUE
。- phenotype_col
可选的列名,表示SNP对应的表型名称。默认为
"Phenotype"
。- snp_col
必填,包含rsid数据的列名。默认为
"SNP"
。- beta_col
必填,效应值大小列名。默认为
"beta"
。- se_col
必填,标准误列名。默认为
"se"
。- eaf_col
非必填,效应等位基因频率列名,注意:此列数据缺失,可能影响后续分析。默认为
"eaf"
。- effect_allele_col
必填,效应等位基因列名。默认为
"effect_allele"
。- other_allele_col
必填,非效应等位基因列名。默认为
"other_allele"
。- pval_col
必填,统计学差异显著性检验指标p值列名。默认为
"pval"
。- units_col
可选填的列名,表示单位。默认为
"units"
。- ncase_col
可选填的列名,表示病例数。默认为
"ncase"
。- ncontrol_col
可选填的列名,表示对照数。默认为
"ncontrol"
。- samplesize_col
可选填的列名,表示样本量。默认为
"samplesize"
。- gene_col
可选填的列名,表示基因名称。默认为
"gene"
。- id_col
可选填的列名,默认为
"id"
。- min_pval
允许的最小p值。默认为
1e-200
。- z_col
可选填的列名,Z分数的列名。默认为
"z"
。- info_col
可选填的列名,默认为
"info_col"
。- chr_col
可选填的列名,染色体的列名。默认为
"chr_col"
。建议填写。- pos_col
可选填的列名,坐标的列名。默认为
"pos"
。建议填写。- log_pval
指定p值是否为-log10(P)。默认为
FALSE
。- Twosample_dat
指定是否保存TwosampleMR数据文件,默认为
FALSE
。- SMR_dat
指定是否保存SMR数据文件,默认为
FALSE
。- MTAG_dat
TRUE或FALSE,是否保存MTAG分析输入数据文件,默认为
FALSE
。- METAL_dat
指定是否保存metal分析输入数据文件,默认为
FALSE
。- GWAS_name
指定输出文件名称。
- save_path
指定输出文件将保存的目录,默认当前工作路径下。