我在哪里可以找到(更多)预训练的语言模型?我对英语和德语的基于神经网络的模型特别感兴趣。
我只知道十亿字基准上的语言模型和TF-LM:基于 TensorFlow 的语言建模工具包。
我很惊讶没有为不同的框架和语言找到更丰富的模型。
我在哪里可以找到(更多)预训练的语言模型?我对英语和德语的基于神经网络的模型特别感兴趣。
我只知道十亿字基准上的语言模型和TF-LM:基于 TensorFlow 的语言建模工具包。
我很惊讶没有为不同的框架和语言找到更丰富的模型。
当然现在有了巨大的发展:Huggingface 发布了pytorch-transformers,一个用于如此成功的 Transformer 模型(BERT 及其变体、GPT-2、XLNet 等)的库,包括许多预训练的(主要是英语或多语言)模型(此处的文档)。它还包括一个德国 BERT 模型。SpaCy 提供了一个方便的包装器(博客文章)。
更新:现在,Salesforce 发布了英文模型CTRL,它允许使用影响生成文本的样式、流派和内容的“控制代码”。
为了完整起见,这是我的答案的旧版本,现在不太相关:
由于我提出了这个问题,我发现了这个预训练的德语模型: https ://lernapparat.de/german-lm/
它是3 层“平均随机下降权重下降”LSTM的一个实例,它是基于Salesforce的实现而实现的。
这在某种程度上取决于您想对语言模型做什么。
一些可能的资源是:
TensorFlow 在研究包中提供了 3 个预训练的语言模型。
Cafe 的ModelZoo有一个预训练的模型,可以处理视频 -> 字幕。
其他包如 Cafe2 提供预训练模型,但文档并未建议它们中的任何一个适用于语言。
如果做不到这一点,一个好的方法可能是向采用您喜欢的方法的论文的作者发送电子邮件。一些(但远非全部)研究人员会很乐意分享他们的模型,然后您可以将其用作自己的起点。