我有两个文本数据集,一个是有某种医疗状况的人,另一个是随机患者。我想弄清楚哪些词更有可能出现在具有这种医疗状况的数据集中。我最初的想法是使用卡方检验,但似乎我无法为每个单词运行测试,因为标记是“类别”,而单个单词是“分类”变量的“值”。例如,如果这个词是“狗”,它在我们的数据集中出现疾病的概率是多少?类似“毒品”这个词,概率是多少?
我会使用像 tfidf 这样的东西吗?我拥有所有令牌的所有频率。
我有两个文本数据集,一个是有某种医疗状况的人,另一个是随机患者。我想弄清楚哪些词更有可能出现在具有这种医疗状况的数据集中。我最初的想法是使用卡方检验,但似乎我无法为每个单词运行测试,因为标记是“类别”,而单个单词是“分类”变量的“值”。例如,如果这个词是“狗”,它在我们的数据集中出现疾病的概率是多少?类似“毒品”这个词,概率是多少?
我会使用像 tfidf 这样的东西吗?我拥有所有令牌的所有频率。
卡方检验是有道理的,但它只会告诉你频率差异是否显着,它本身并不能很好地说明类别之间差异的规模。
您的问题的简单答案是计算每个单词的条件分布和班级. 使用符号对于频率(即包含的文件数量):
这表示频率与班级内的其他词进行比较(即忽略其他类)。
这代表了上课的频率仅考虑单词时与其他类进行比较(即忽略其他词)。
后者在比较两个类时很重要,但只有当两个类包含相同数量的文档时,它才是公平的比较。
一种更高级(但可能不太直观)的方法是在单词和类之间使用诸如逐点互信息 (PMI)之类的度量。如果单词和类是强关联的,则 PMI 值很高。