我正在使用每个父节点的本地分类器 (LCPN) 方法和“兄弟姐妹”策略构建分层文本分类器,如跨不同应用程序域的分层分类调查中所述:
例如,如果我们有 1.1、1.2、2.1、2.2、2.3 类,那么在第一级中,我们使用所有训练集来训练分类器来区分类 1 (1.1,1.2) 和类 2 (2.1,2.2,2.3),在第二个级别,我们使用两个多类分类器,第一个分类器在 1.1 和 1.2 之间进行分类,仅使用属于这些类的数据作为训练集,其余分类器使用第二个分类器。
我们对数据所做的任何数据转换(例如缩放、tf-idf)是否应该发生在分类器的每个级别?即,由于在第一级,tf-idf 向量是通过拟合整个训练集创建的,我们可以在第二级使用它们还是应该适应新的训练子集?