我正在寻找在大型文本数据集(至少几百万个句子)上使用 Keras 或 TensorFlow 的任何教程或示例。我已经查看了一些使用fit_generator()Keras 中的方法的示例,但这些示例大多是为图像分类量身定制的,并且涉及的预处理非常少。我还研究过HDF5Matrix在 Keras 中使用较新的类,并且在批量大小大于 20 的情况下继续耗尽内存。
TensorFlow 中是否还有其他有用的数据读取/流式传输工具可用于解决此问题?是否有示例说明如何在输入模型之前以内存有效的方式在这样的管道中进行标准 NLP 预处理?任何参考将不胜感激。谢谢阅读。