我正在对消费者生成的短信进行文本分类,并且刚刚意识到即使消费者提供的大多数回复都是英文的,有些是法文的。我使用 Keras 词嵌入、conv1D 和 maxpooling 来学习文本中的结构,并且没有使用任何其他文本预处理技术,例如去除停用词等。
在这种情况下,我认为在两种语言上都使用词嵌入应该没问题,因为词嵌入可以学习单个单词的含义,而与语言无关……这合理吗?或者也许我确实需要分离语言并为每种语言构建不同的模型?
我正在对消费者生成的短信进行文本分类,并且刚刚意识到即使消费者提供的大多数回复都是英文的,有些是法文的。我使用 Keras 词嵌入、conv1D 和 maxpooling 来学习文本中的结构,并且没有使用任何其他文本预处理技术,例如去除停用词等。
在这种情况下,我认为在两种语言上都使用词嵌入应该没问题,因为词嵌入可以学习单个单词的含义,而与语言无关……这合理吗?或者也许我确实需要分离语言并为每种语言构建不同的模型?
在这种情况下,我认为在两种语言上都使用词嵌入应该没问题,因为词嵌入可以学习单个单词的含义,而与语言无关……这合理吗?或者也许我确实需要分离语言并为每种语言构建不同的模型?
如果我从逻辑上认为你是对的。Word embedding 只是 Tokens 的集合,它根据句子中的邻近词导出其特征。因此,如果您有足够的原始数据(两者的混合),我认为这很好,尽管结果会为您解释更多:)。
但是,如果我们混合使用 LeftToRight(LTR) 和 RTL 语言,很高兴看到这些模型将如何表现。
取决于数据分布。一些消费者可能会以不同的方式说话,他们可能很少有人这样做,并且您的 Word Embedding 可能不会从这些数据中学到任何东西。有一个功能可以告诉或大致告诉对话混合了纯英语或纯法语,这可能会有所帮助。