我有几个想尝试的 NLP 想法(主要是为了我自己的学习)——虽然我有运行实际训练和预测任务的 python/tensorflow 背景,但我在处理大量文本方面没有太多经验数据和涉及的任何管道。
有没有关于如何收集数据并为大型(ish)NLP 实验标记数据的教程?
例如:BERT 最初是在所有英文维基百科上训练的。您如何以正确的格式将 Wikipedia 的 590 万多篇文章中的所有文本收集到存储库中?您如何对如此庞大的语料库进行标记化 NLTK 和 Beautiful soup 之类的东西仍然适用于如此庞大的数据集吗?
如果我有一个或多个关于某个主题的网站或多个网站,我想提出一些 NLP 模型,是否有任何 Webscraping API 可以将所有这些都集中到一个地方?非常欢迎任何教程,工具,谢谢