数据挖掘 - 层次分类中的数据转换 - 吾爱随笔录

我正在使用每个父节点的本地分类器 (LCPN) 方法和“兄弟姐妹”策略构建分层文本分类器，如跨不同应用程序域的分层分类调查中所述：

例如，如果我们有 1.1、1.2、2.1、2.2、2.3 类，那么在第一级中，我们使用所有训练集来训练分类器来区分类 1 (1.1,1.2) 和类 2 (2.1,2.2,2.3)，在第二个级别，我们使用两个多类分类器，第一个分类器在 1.1 和 1.2 之间进行分类，仅使用属于这些类的数据作为训练集，其余分类器使用第二个分类器。

我们对数据所做的任何数据转换（例如缩放、tf-idf）是否应该发生在分类器的每个级别？即，由于在第一级，tf-idf 向量是通过拟合整个训练集创建的，我们可以在第二级使用它们还是应该适应新的训练子集？