所以我有一个大约 30k 文档的小型语料库,这个语料库中大约 50 个文档是其他语言的(波斯语、汉语、阿拉伯语、德语、西班牙语等)。我将使用这个语料库来训练机器学习模型。
现在的问题是:这些非英文文件应该如何处理?
- 我应该将它们从最终语料库和模型训练中排除吗?
- 还是我应该手动翻译它们(要求每种语言的本地人为我翻译)并将它们包含在最终语料库中?
- 还是我应该使用谷歌翻译/DeepL 将这些非英语文档翻译成英语,然后将它们包含在最终语料库中?
所讨论的语料库中的每个文档不超过 500 个单词。
任何帮助或提示将不胜感激。