PoPS特征预处理函数 — PoPS_munge

该函数用于调用 PoPS 算法中的特征预处理步骤，主要用于将输入的特征矩阵文件（存储在特征文件夹中）与基因注释文件进行匹配和处理，生成预处理后的特征文件。PoPS 会将每个特征文件中的数据（必须以制表符分隔，且第一列为 ENSGID）根据基因注释文件（包含 ENSGID）的信息进行处理，确保所有特征文件的基因一致性。

Usage

PoPS_munge_feature(
  gene_annot_path = "./data/utils/gene_annot_jun10.txt",
  feature_dir = "./data/features_munged/pops_features",
  max_cols = 5000,
  save_name = "pops_features",
  save_path = "./features_munged"
)

Arguments

gene_annot_path: 字符串，基因注释文件的路径。该文件应包含 ENSGID 列，用于将特征文件中的数据与基因信息进行匹配。
feature_dir: 字符串，特征文件所在的文件夹路径。该文件夹内的每个文件应为以制表符分隔的文件，第一列应为 ENSGID，且每个特征文件的列名应唯一。可以通过将文件名前缀添加到每列的列名中，确保列名唯一。
max_cols: 整数，每个输出分块中的最大列数。默认为 5000，PoPS 会将特征文件划分为多个块，确保每个块的列数不超过该值，以便提高计算效率和内存管理。
save_name: 字符串，输出文件的前缀名称。PoPS 将根据该名称保存处理后的特征文件和相关数据。
save_path: 字符串，预处理结果保存路径。处理后的特征文件将保存到该路径下。

Value

输出的文件包括： - save_prefix_mat.{i}.npy 文件：每个特征块的特征数据矩阵（以 .npy 格式存储）。 - save_prefix_cols.{i}.txt 文件：每个特征块的列名（以 .txt 格式存储）。 - save_prefix_rows.txt 文件：包含所有处理过的特征行数据的文件。