确定有用的亚马逊反馈

数据挖掘 文本挖掘 特征选择
2022-03-10 07:31:09

我正在学习机器学习课程,我们的任务之一是预测亚马逊评论的有用性。目前,我正在做大多数人似乎做的事情。也就是说,文本上的 hashvectorizer(2-gram)、tfidf、几个标量特征,以及(在我的例子中)一个 Ridge 分类器(由网格搜索选择的参数)。老实说,自从我尝试阅读并应用课程中的最佳实践以及我能找到的任何已发表的作品以来,这一直令人沮丧。也就是说,我仍然只取得了微不足道的结果:

{'Pos': 6588, 'Neg': 84412, 'TP': 2755, 'TN': 78990, 'FP': 5422, 'FN': 3833, 'Accuracy': 0.8982967032967033, 'Precision': 0.33692063103827807, 'Recall': 0.41818457802064357}

...这不是很好。我不需要帮助编码*,但如果有人可以提出有用的案例研究或其他我可以研究的 sklearn 分类器/技术,我将不胜感激。我很快就找不到跟进的方向了。

谢谢!

2个回答

朴素贝叶斯几乎总是我第一次解决文本数据问题。这主要是由于独立分布通过特征独立样式矩阵与文档很好地集成在一起。我会LassoElasticNet扩展你对Ridge的想法。如果数据稀疏,我不建议对数据进行规范化,众所周知这会导致问题,但StandardScaler是一种相当传统的方法,可以在不产生数据变量之间不和谐的情况下获得居中的数据集。我会考虑你在上述每个模型下的精度或 fmeasure 误差度量作为我个人的下一步,然后做一些可视化来证明你最适合。

如果您想坚持使用普通机器学习,那么众所周知,支持向量机在文本分类问题上工作得非常好。您可以尝试各种内核。或者,您可以尝试使用词嵌入的神经网络。但是,从您的评估指标来看,您似乎存在数据不平衡问题,因此精度和召回率较低。准确性在这里变得完全没有意义。在您尝试其他任何方法之前,我建议您尝试通过获取更多数据来平衡您的样本,如果这似乎不可能,那么请尝试 bagging。