Skip to contents

该函数用于调用 PoPS 算法中的特征预处理步骤,主要用于将输入的特征矩阵文件(存储在特征文件夹中)与基因注释文件进行匹配和处理,生成预处理后的特征文件。PoPS 会将每个特征文件中的数据(必须以制表符分隔,且第一列为 ENSGID)根据基因注释文件(包含 ENSGID)的信息进行处理,确保所有特征文件的基因一致性。

Usage

PoPS_munge_feature(
  gene_annot_path = "./data/utils/gene_annot_jun10.txt",
  feature_dir = "./data/features_munged/pops_features",
  max_cols = 5000,
  save_name = "pops_features",
  save_path = "./features_munged"
)

Arguments

gene_annot_path

基因注释文件的路径。该文件应包含 ENSGID 列,用于将特征文件中的数据与基因信息进行匹配。

feature_dir

特征文件所在的文件夹路径。该文件夹内的每个文件应为以制表符分隔的文件,第一列应为 ENSGID,且每个特征文件的列名应唯一。可以通过将文件名前缀添加到每列的列名中,确保列名唯一。

max_cols

每个输出分块中的最大列数。默认为 5000,PoPS 会将特征文件划分为多个块,确保每个块的列数不超过该值,以便提高计算效率和内存管理。

save_name

输出文件的前缀名称。PoPS 将根据该名称保存处理后的特征文件和相关数据。

save_path

预处理结果保存路径。处理后的特征文件将保存到该路径下。

Value

输出的文件包括: - save_prefix_mat.{i}.npy 文件:每个特征块的特征数据矩阵(以 .npy 格式存储)。 - save_prefix_cols.{i}.txt 文件:每个特征块的列名(以 .txt 格式存储)。 - save_prefix_rows.txt 文件:包含所有处理过的特征行数据的文件。