偏向特定数据子集的 SVM 算法

数据挖掘 scikit-学习 数据集 支持向量机 情绪分析 社会网络分析
2022-03-09 09:35:33

我正在训练基于社交媒体数据的 SVM 模型进行情绪分析,例如。推文。

该模型将使用一小部分特定公司的推文进行训练,以便对新推文进行分类。然而,由于训练集太小而无法获得准确的模型,我将把公司的数据与更大的通用推文数据集相结合来训练模型。

专门针对一家公司,各个数据的内容与一般数据集的内容略有不同。由于要预测的数据是公司专业的,所以在我看来,将模型训练偏向于更加重视与公司相关的推文以提高准确性似乎是合乎逻辑的。我的第一个想法是简单地增加公司推文的极性大小,例如,一般推文为 -1 或 1,公司推文为 -3 和 3。

这是正确的想法/方法吗?

2个回答

我认为这不是一个好主意:目标不是让模型在推文与公司相关时预测更极端的极性。

相反,您可能需要考虑对这家特定公司的少数实例进行过采样。例如,如果您的训练集中有 100 条公司特定推文和 1000 条一般推文,您可以将公司特定推文复制 10 次,以使特定推文在数据中具有更高的权重。如果可能,您应该调整复制次数的参数以获得最佳值。

请尝试将特定公司的数据复制十次或更多,并在来自该公司特定数据的交叉/测试数据中包含更多样本 (3:1)。我希望这会产生一些积极的影响。