我目前正在研究多标签分类问题。我正在使用scikit-multilearn库(在此处进一步阅读)
我知道训练/测试拆分对于这些类型的问题很重要——确保标签组合在两者中都能很好地表示(scikit-multilearn 为此实现了自己的拆分方法)。
我目前的目标是了解它是如何工作的,以便我可以正确评估它 - 我主要从这里阅读。
我对该get_combination_wise_output_matrix方法的输出有点困惑。我从高层次上理解,它为我提供了我指定的任何顺序的标签组合计数的细分。
我的第一个问题是(5, 5): 1,除了索引 5 处的标签之外的任何东西都出现过一次,并且这个数字会因为......原因而重复?
此外,我还没有找到任何评估如何/何时使用不同订单的文献(我目前的方法是定性评估一些不同的选项,考虑到我正在尝试(拼命地)解决的特定问题,这些选项似乎是合理的
提前感谢您的帮助!
