我们在项目中面临问题。我们有一个大约 25000 行的数据集,我们有一个列名标题,它包含文本数据,我们在数据集中有一个分数列。我们想使用机器学习技术来了解使标签高的因素是什么,我的意思是关键词是什么等等。正如使用可以看到我们有一个短文本那么什么是从这个短文本中提取与标签相关的最大知识的最合适的技术,我做了一些预处理通过清理文本然后使用 tf-idf 加权函数提取 ngram 特征,然后我尝试使用决策树算法对文本进行分类例如:
Score Label Tactic Title
1. High Opportunity Movement.
2. Low Partner Launch.
3. High Implement Mix panel stories.
4. Low Improve app performance and reduce multiple API Calls.
5. High Review Comments.
6. Low Support SimpleStarta Team Goal.