我们的任务是构建一个内部情绪工具,我们将在大量数据源上使用它;调查回复、评论、社交聆听等。
这对某些人来说可能很明显,但我想听听一些想法。所以我的问题是,您是否会为每个数据源训练单独的模型,因为来自每个源的文档会完全不同?然后,我们将根据数据源应用适当的模型。
还是最好的做法是使用所有数据源的样本训练一个模型并将该模型应用于所有内容?
我们的任务是构建一个内部情绪工具,我们将在大量数据源上使用它;调查回复、评论、社交聆听等。
这对某些人来说可能很明显,但我想听听一些想法。所以我的问题是,您是否会为每个数据源训练单独的模型,因为来自每个源的文档会完全不同?然后,我们将根据数据源应用适当的模型。
还是最好的做法是使用所有数据源的样本训练一个模型并将该模型应用于所有内容?
我建议你训练一个模型。评论中与正面或负面情绪相关的特征可能与调查回复中的特征相同。也就是说,“好”意味着两者都好,“坏”意味着两者都不好。
一般来说,当您认为不同情况下的特征具有相同的含义/解释时,您应该将模型和数据集结合起来。如果它们具有矛盾或不同的含义/解释,那么您应该考虑训练单独的模型。
我认为@Kevin H 所说的是正确的。
还有几件事我建议你花更多时间在
建议使用 Ensemble 的主要原因是 Navie Bayes 分类器在短句上效果最好,但对于其余的不是最好的模型。
关于抽样,我认为要做到这一点,您需要清楚地了解数据,以便提取样本,您需要确保覆盖人口的每个维度(样本应该准确地代表人口)。因此,在实施采样技术时应该非常小心。
选择最佳模型,您需要尝试在所有适用条件下应用它们的所有方法,并根据您的业务应用程序和取得的结果,您需要做出决定,但通常人们实施 Ensemble 以获得最佳结果(在大多数情况下)。
如果您需要更多关于 Ensemble 或任何其他技术的信息,请告诉我,我们将为您提供帮助!
因为来自每个来源的文件会完全不同
好吧,如果这是真的,我建议训练不同的模型。
并不是说其他人的观点是错误的,但是如果你有不同的文档,例如推文和报纸文章,在推文和文章中训练的模型的准确性无法与仅在一种类型中训练的模型的准确性相匹配的文件。
推文有很多拼写错误,很多时候名字没有大写,还有表情符号和俚语。
另一方面,文章大多数时候在情感方面使用更“中立”的语言,它们的大小比推文大得多,而且大部分时间都写得很好。