我对 ML 或 NLP 一无所知,但有人要求我创建与我国目前有效的法规类似的全新法规(成文法律)。我已经收集了法律,现在有 5000 个 html 文件,每个法律一个。
每个 html 文件的平均大小为 49 kB。整个语料库为 300 MB。
我有两个替代目标(当然,两者都完美):
生成一个新的、完整的 HTML 文件,该文件将模仿 5000 个现有文件(通常顶部有 1 个大标题、子标题、具有自己标题和编号的文章等)
生成听起来好像可以在典型法律中找到的句子(这些法律是用法语编写的)
在如此小的语料库(总共约 300 MB)的情况下,这些目标中的任何一个是否可行?
我应该尝试微调现有模型(但在这种情况下,我的语料库的小规模不会成为问题吗?它不会在其余的训练数据中被“淹没”吗?),还是应该我从头开始创建一个?
我已经尝试按照有关拥抱脸的指南进行操作,但是在过时的文件、未记录的标志和我对该主题的普遍缺乏了解之间,我完全迷失了。
提前致谢。
顺便说一句,如果你想看看数据,那就是:https ://github.com/Biganon/rs/