TF-IDF 回归和机器学习

数据挖掘 机器学习 模型选择
2022-02-22 12:57:50

我想获取一组文档,其中每个文档已经具有指定的流行度变化值(“趋势”,即 -10%、+25% 等),并创建一个能够预测的机器学习模型新文档的“趋势”值。

在为所有文档创建 TF-IDF,删除一些仅出现在 1 个文档中的最稀有词,可能删除停用词等之后,我有点迷失了。使用某种情感分析模型来训练 TF-IDF 向量的流行度变化值是否正确?我也在考虑如何为这个任务训练一个常规回归模型,但与 TD-IDF 数据集成似乎不是一个容易的选择。

1个回答

我不确定你已经知道了什么,所以我会回答我会怎么做。如果你不明白的事情,或者已经知道我说的一些事情,请发表评论。

如果你的输出是分类的,我会把它作为一个多类问题来解决,因此确实只有10%,25%等等。如果您想将其视为回归问题,我会说您需要连续的流行度增量,因此您需要各种值作为增量,而不仅仅是固定数量的值。训练数据应该决定你如何解决这个问题。请注意,您始终可以通过对间隔进行分桶来将回归减少到多类问题(它要求实例应该分配哪个增量)。

为了论证的缘故,让我们假设您有多类数据。一个文档具有其中一个类,即10%. 然后,您继续将这些类编码为二进制向量,这甚至可能是您正在使用的库的一部分。

然后,您将继续使用保留方法拆分数据,以留出一些验证示例,以查看模型的实际工作方式。然后你继续训练一些模型,比如随机森林。使用验证数据,您可以计算一些错误度量并查看它是否足够。如果不是,您继续选择其他模型进行训练,添加其他功能等等。

我建议尝试使用另一种方法,而不是词袋,例如 word2vec 或 GloVe。您还可以将情绪分类器值添加为特征列。然后,您可以比较不同的功能并查看其性能。

让我知道这是否对您有帮助,或者我是否误解了您的问题。