我目前正在使用具有各种文档长度的数据集——从单个单词到整页文本。此外,语法结构和标点符号的使用因文档而异。目标是将这些文档分类为大约 10-15 个类别之一。我目前正在对任务使用岭回归和逻辑回归,对岭的 alpha 值使用 CV。特征向量是 tf-idf ngram。
最近我注意到较长的文档不太可能被分类。为什么会出现这种情况,如何才能“标准化”这种变化?作为一个更普遍的问题,人们通常如何处理不同的数据集?是否应该根据文档长度、标点符号的使用、语法严谨性等指标对文档进行分组,然后通过不同的分类器进行输入?