在训练期间中继在预测期间(必然)不可用的特征

数据挖掘 机器学习 Python scikit-学习 文本分类
2022-02-23 00:51:31

我正在做一个错误预测的小项目。我的目标是预测哪个错误将(最终)分配给哪个相关组(这显然是我的标签)。

对于培训,我在一个错误数据库上进行中继,我从每个错误中提取各种特征(尽可能多)。

  1. 痕迹
  2. 恐慌
  3. 混帐责备(如果有)

虽然上述大部分功能在预测期间始终可供我使用,但我认为我可以使用另一个功能,即组成员之间的“评论”。在预测期间,我可能无法使用此功能(因为我计划在早期阶段预测错误)。

现在我有点困惑。我可以在训练期间转播它吗?我是在欺骗自己吗?不用说,使用它时的分数要高得多(没有它,我在使用它时大约是 80% 对 90% 或更多)。

1个回答

3分:

  1. 如果该功能在预测期间肯定或大部分时间不可用,则您不能使用它
  2. 如果它有时可用,有时不可用,您还必须在训练中包含无评论错误,并选择一个默认值,即无评论(例如“无评论”字符串!或无)
  3. 如果它们仅可用于培训,您仍然可以在 EDA 期间从中受益。从它们中提取关键字、主题等将帮助您了解不同标签的情况,并可能帮助您验证标签、对它们进行评分和/或了解其他特征之间的关系(通过类聚类分析)
  4. 如果你想使用它们,请小心你如何使用它们。你有一堆分类和/或数字特征,如果你想把文本特征放在它们旁边,你需要处理特征表示。例如,如果你想使用 TF-IDF,你会突然引入数千个可能会扼杀主要特征信息的特征。因此,请尝试使其尽可能稀疏,例如从这些文本中提取关键字或主题并将其用作类别。如果您使用任何嵌入对其进行建模,请检查您是否需要标准化您的特征集,因为嵌入值的比例和其他数字特征可能不同

希望它有所帮助。祝你好运!