潜在狄利克雷分配的合理超参数范围?

机器算法验证 超参数 潜在狄利克雷分配
2022-03-20 15:51:58

LDA 中超 (这里解释得很好)的良好范围是多少?αβ

我很欣赏超参数调整总是取决于用例、数据、文档内容等,但是有什么通用规则或启发式方法可以为 LDA 选择这些超参数吗?

附加信息

有关我的特定用例和数据的更多信息(尽管如果可能的话,我想要一个通用的答案):

  1. 29 个文档,平均长度为 5,177 个单词(解析后)。预计这一数量的文件将增长到 50-200 份。

  2. 3,500 个唯一词(按频率解析并保留前 3,500 个词后)

  3. 总共 155,309 个单词(同样,解析后)

  4. 所有文件都与财务相关,更具体地说是投资前景白皮书。所以文档之间没有太多的“多样性”

这是一个很小的数据集,但我认为每个文档中有足够的单词和结构来训练 LDA 模型(如果没有,请告诉我)。

1个回答

的选择确实很棘手,因为它会影响主题建模结果。Griffiths 等人的 Gibbs 采样纸。对此提供了一些见解:αβ

的值会影响模型的粒度:文档语料库可以明智地分解为多个不同尺度的主题集,模型评估的特定尺度将由设置。对于科学文档,较大的值会导致模型找到相对较少的主题,可能是在科学学科的水平上,而较小的值会产生更多针对特定研究领域的主题ββββ

最终,对于科学文档,作者选择了以下超参数,但是他们有大约文档的语料库和单词的词汇,他们尝试了几种不同的β=0.1α=50/T28K20KT:[50,100,200,300,400,500,600,1000]


关于你的数据。我没有分析金融文本数据的经验,但是对于 的选择,我会问自己以下问题:αβ

  • 鉴于我的词汇量,我是否希望我的结果主题很稀疏?在大多数情况下,这是真的。因此,通常选择的主题先验是稀疏的,β<1
  • 给定主题,我是否希望每个文档中的主题分布是稀疏的?也就是说,每个文档只代表几个主题。如果是,则α<1

由于对数据的了解有限,回答上述问题可能并不直接。由于您的数据有限,我会选择的多个值——从稀疏到非稀疏先验——并通过计算一些保留数据的困惑度来找到适合数据集的值。更具体地说:αβ

  • 选择αm[0.05,0.1,0.5,1,5,10]
  • 选择βm[0.05,0.1,0.5,1,5,10]
  • 在训练数据上运行主题建模(αm,βm)
  • 在保留测试数据上查找模型困惑
  • 选择具有最小困惑αmβm

资源: