我有 5000 个 html 文件(结构化文本),如何生成一个“类似”这些文件的新文件?

人工智能 自然语言处理 自然语言生成
2021-11-16 09:49:15

我对 ML 或 NLP 一无所知,但有人要求我创建与我国目前有效的法规类似的全新法规(成文法律)。我已经收集了法律,现在有 5000 个 html 文件,每个法律一个。

每个 html 文件的平均大小为 49 kB。整个语料库为 300 MB。

我有两个替代目标(当然,两者都完美):

  • 生成一个新的、完整的 HTML 文件,该文件将模仿 5000 个现有文件(通常顶部有 1 个大标题、子标题、具有自己标题和编号的文章等)

  • 生成听起来好像可以在典型法律中找到的句子(这些法律是用法语编写的)

在如此小的语料库(总共约 300 MB)的情况下,这些目标中的任何一个是否可行?

我应该尝试微调现有模型(但在这种情况下,我的语料库的小规模不会成为问题吗?它不会在其余的训练数据中被“淹没”吗?),还是应该我从头开始创建一个?

我已经尝试按照有关拥抱脸的指南进行操作,但是在过时的文件、未记录的标志和我对该主题的普遍缺乏了解之间,我完全迷失了。

提前致谢。

顺便说一句,如果你想看看数据,那就是:https ://github.com/Biganon/rs/

1个回答

您可以尝试在 char 级别上训练循环神经网络。基本上,您采用 GRU 或 LSTM 并使用一系列字符,而不是标签或单词。在博文“循环神经网络的不合理有效性”中,有莎士比亚的例子,C 上的 Linux 源代码和乳胶代码中的论文,结果非常有效,产生于与你的训练集大小相似。html 页面的好处是现代浏览器非常擅长处理稍微损坏的 HTML,因此这种方法可以适用于您的两个任务。