我正在做一些工作,试图从一组人类分类文档中提取常见的单词,并且对任何可能了解 NLP 或文本统计分析的人提出了几个问题。
我们有一堆文档,用户将它们分类为好或坏。我想做的是弄清楚哪些词对好的文档是常见的,但不一定是其他词。
例如,我可以使用(良好文档中的频率/总频率),它基本上可以规范一个单词的普遍常见效果。不幸的是,这为仅出现在少数好文档中的单词提供了非常高的优先级,而在其他文档中则完全没有。在评估总频率之前,我可以为好的文档中的出现次数添加某种最小阈值,但这似乎有点骇人听闻。
有谁知道在这种情况下使用的最佳实践方程或模型是什么?我做了很多搜索,发现了很多对 TF-IDF 的引用,但这似乎更适用于针对整个文档集评估单个文档上的术语的价值。在这里,我正在处理一组文档,它们是较大集合的一个子集。
换句话说,我想确定哪些词对好的文档类别是独特的或更重要的。