数据挖掘 - 确定有用的亚马逊反馈 - 吾爱随笔录

我正在学习机器学习课程，我们的任务之一是预测亚马逊评论的有用性。目前，我正在做大多数人似乎做的事情。也就是说，文本上的 hashvectorizer(2-gram)、tfidf、几个标量特征，以及（在我的例子中）一个 Ridge 分类器（由网格搜索选择的参数）。老实说，自从我尝试阅读并应用课程中的最佳实践以及我能找到的任何已发表的作品以来，这一直令人沮丧。也就是说，我仍然只取得了微不足道的结果：

{'Pos': 6588, 'Neg': 84412, 'TP': 2755, 'TN': 78990, 'FP': 5422, 'FN': 3833, 'Accuracy': 0.8982967032967033, 'Precision': 0.33692063103827807, 'Recall': 0.41818457802064357}

...这不是很好。我不需要帮助编码*，但如果有人可以提出有用的案例研究或其他我可以研究的 sklearn 分类器/技术，我将不胜感激。我很快就找不到跟进的方向了。

谢谢！

如果相关，你可以在这里找到我的最新迭代