在 NLP 任务中应该如何处理这些非英文文档?

数据挖掘 机器学习 nlp 语言模型
2021-10-07 13:01:47

所以我有一个大约 30k 文档的小型语料库,这个语料库中大约 50 个文档是其他语言的(波斯语、汉语、阿拉伯语、德语、西班牙语等)。我将使用这个语料库来训练机器学习模型。

现在的问题是:这些非英文文件应该如何处理?

  1. 我应该将它们从最终语料库和模型训练中排除吗?
  2. 还是我应该手动翻译它们(要求每种语言的本地人为我翻译)并将它们包含在最终语料库中?
  3. 还是我应该使用谷歌翻译/DeepL 将这些非英语文档翻译成英语,然后将它们包含在最终语料库中?

所讨论的语料库中的每个文档不超过 500 个单词。

任何帮助或提示将不胜感激。

1个回答

您可以使用以下提示:

我应该将它们排除在语料库中并从训练模型中排除吗?

如果您不缺少数据,则可以执行此操作。但我认为从 30K 文档中排除 500 个文档不会对培训产生很大影响。模型的泛化能力不会受到影响。

我应该手动翻译它们(请求每种语言的本地人为我翻译)并将它们包含在最终语料库中吗?

只有在需要 500 个文档时才应该这样做,因为它们包含重要信息。我个人不会推荐这种方法。

我应该使用 Google translate/DeepL 将这些非英语文档翻译成英语,然后将它们包含在最终语料库中吗?

这是你可以做的事情。如果文档中的句子结构简单明了,那么使用 Google 翻译可能会有所帮助。您无需任何其他国家/地区的本地人即可获得良好的翻译。

我认为你应该选择这种方法。

结论:

  1. 使用谷歌翻译翻译重要的文档。
  2. 否则,如果您有额外的 500 个文档,请忽略它们。它们不会显着影响模型的性能。

小费:

我认为您无法将 500 个文档粘贴到 Google 翻译控制台中。如果文档属于不同的语言,这将非常耗时。因此,尽量省略这些文件。否则,您将需要一个迷你应用程序,它可以使用一些翻译 API 来转换文档。