我开发了一种算法来定义文本分类中特征选择的条件熵。我正在遵循 Charu C. Aggarwal (5.2.2) 撰写的 Machine Learning from Text 中的公式。作者提到条件熵值介于 (0, log(number of classes)) 之间,我的情况是 (0, 0.6931472)。
作者还提到可以删除具有最大值的特征,但他没有提供有关定义“最大”的标准的更多信息(它只是熵的最大值还是一组最大的熵值?)
你们有没有将条件熵用于特征选择?如果是这样,根据结果,使用什么标准来定义要删除的特征。
这是我的条件熵结果的摘要:
E.tj.
Min. :0.5701
1st Qu.:0.6562
Median :0.6563
Mean :0.6558
3rd Qu.:0.6564
Max. :0.6564