我正在解决一个解决这个问题的问题“导致高分或低分的操作是什么?”
我有以下由 text 和 score 组成的数据,我想从导致高/低分的文本中得出单词或动作
我有大量数据,文本长度可以是一个段落,示例数据如下
+----------------------+-------+
| Text | Score |
+----------------------+-------+
| Support Team Goal | 90 |
| Generate Lead | 80 |
| Contact 30 customers | 30 |
| Support Team Goal | 30 |
+----------------------+-------+
方法遵循:我遵循朴素贝叶斯方法。
- 首先,我将我的数据分为高(分数(75 及以上))和低(分数低于 75)
- 我也将 High 转换为 Term Document Matrix 和 Low
- 我发现单词只出现在低分并判断它们导致低分(如果频率大于 7 则包括单词让我们说)
- 我发现单词只出现在 high 中并判断它们会导致高分(如果频率大于 7 则包括单词让我们说 high)
- 我发现了常见单词的概率,对于出现在高或低的单词,我计算了单词出现在低/高的概率(如果概率大于 75%,则包括单词)
注意:我使用二元组。不确定这是否是分析我的问题的正确方法,还是有更好的技术。请指教