数据挖掘 - 词嵌入可以用于混合英语和非英语文本的文本分类吗？ - 吾爱随笔录

数据挖掘深度学习喀拉斯 nlp 词嵌入

2022-02-21 21:21:49

我正在对消费者生成的短信进行文本分类，并且刚刚意识到即使消费者提供的大多数回复都是英文的，有些是法文的。我使用 Keras 词嵌入、conv1D 和 maxpooling 来学习文本中的结构，并且没有使用任何其他文本预处理技术，例如去除停用词等。

在这种情况下，我认为在两种语言上都使用词嵌入应该没问题，因为词嵌入可以学习单个单词的含义，而与语言无关……这合理吗？或者也许我确实需要分离语言并为每种语言构建不同的模型？

2个回答

如果我从逻辑上认为你是对的。Word embedding 只是 Tokens 的集合，它根据句子中的邻近词导出其特征。因此，如果您有足够的原始数据（两者的混合），我认为这很好，尽管结果会为您解释更多:)。

但是，如果我们混合使用 LeftToRight(LTR) 和 RTL 语言，很高兴看到这些模型将如何表现。

取决于数据分布。一些消费者可能会以不同的方式说话，他们可能很少有人这样做，并且您的 Word Embedding 可能不会从这些数据中学到任何东西。有一个功能可以告诉或大致告诉对话混合了纯英语或纯法语，这可能会有所帮助。

其它你可能感兴趣的问题