我正在从事与 NLP 相关的任务。我有大约 150 个文件,每页长(平均 5/6 页)。删除停用词和其他不必要的符号和数字后,我有大约 104,000 个唯一词。手头的任务可能需要某种词嵌入(例如 word2vec),因为简单的词袋类型方法无法正常工作。但是,我担心我拥有的数据的大小。我看过预训练的词嵌入(GloVec),但是,由于我们文本的领域(制造)的狭窄焦点,我犹豫要使用这些预训练的向量。这让我只能自己训练。然而,我们数据集的大小让我很担心。因此,我只是把这个问题扔在那里:
任何回应将不胜感激。
谢谢