词嵌入可以用于混合英语和非英语文本的文本分类吗?

数据挖掘 深度学习 喀拉斯 nlp 词嵌入
2022-02-21 21:21:49

我正在对消费者生成的短信进行文本分类,并且刚刚意识到即使消费者提供的大多数回复都是英文的,有些是法文的。我使用 Keras 词嵌入、conv1D 和 maxpooling 来学习文本中的结构,并且没有使用任何其他文本预处理技术,例如去除停用词等。

在这种情况下,我认为在两种语言上都使用词嵌入应该没问题,因为词嵌入可以学习单个单词的含义,而与语言无关……这合理吗?或者也许我确实需要分离语言并为每种语言构建不同的模型?

2个回答

在这种情况下,我认为在两种语言上都使用词嵌入应该没问题,因为词嵌入可以学习单个单词的含义,而与语言无关……这合理吗?或者也许我确实需要分离语言并为每种语言构建不同的模型?

如果我从逻辑上认为你是对的。Word embedding 只是 Tokens 的集合,它根据句子中的邻近词导出其特征。因此,如果您有足够的原始数据(两者的混合),我认为这很好,尽管结果会为您解释更多:)。

但是,如果我们混合使用 LeftToRight(LTR) 和 RTL 语言,很高兴看到这些模型将如何表现。

取决于数据分布。一些消费者可能会以不同的方式说话,他们可能很少有人这样做,并且您的 Word Embedding 可能不会从这些数据中学到任何东西。有一个功能可以告诉或大致告诉对话混合了纯英语或纯法语,这可能会有所帮助。