人工智能 - 我有 5000 个 html 文件（结构化文本），如何生成一个“类似”这些文件的新文件？ - 吾爱随笔录

我对 ML 或 NLP 一无所知，但有人要求我创建与我国目前有效的法规类似的全新法规（成文法律）。我已经收集了法律，现在有 5000 个 html 文件，每个法律一个。

每个 html 文件的平均大小为 49 kB。整个语料库为 300 MB。

我有两个替代目标（当然，两者都完美）：

在如此小的语料库（总共约 300 MB）的情况下，这些目标中的任何一个是否可行？

我应该尝试微调现有模型（但在这种情况下，我的语料库的小规模不会成为问题吗？它不会在其余的训练数据中被“淹没”吗？），还是应该我从头开始创建一个？

我已经尝试按照有关拥抱脸的指南进行操作，但是在过时的文件、未记录的标志和我对该主题的普遍缺乏了解之间，我完全迷失了。

提前致谢。

顺便说一句，如果你想看看数据，那就是：https ://github.com/Biganon/rs/