和的选择确实很棘手,因为它会影响主题建模结果。Griffiths 等人的 Gibbs 采样纸。对此提供了一些见解:αβ
的值会影响模型的粒度:文档语料库可以明智地分解为多个不同尺度的主题集,模型评估的特定尺度将由设置。对于科学文档,较大的值会导致模型找到相对较少的主题,可能是在科学学科的水平上,而较小的值会产生更多针对特定研究领域的主题。ββββ
最终,对于科学文档,作者选择了以下超参数,和。但是他们有大约文档的语料库和单词的词汇,他们尝试了几种不同的。β=0.1α=50/T28K20KT:[50,100,200,300,400,500,600,1000]
关于你的数据。我没有分析金融文本数据的经验,但是对于
和的选择,我会问自己以下问题:αβ
- 鉴于我的词汇量,我是否希望我的结果主题很稀疏?在大多数情况下,这是真的。因此,通常选择的主题先验是稀疏的,。β<1
- 给定主题,我是否希望每个文档中的主题分布是稀疏的?也就是说,每个文档只代表几个主题。如果是,则。α<1
由于对数据的了解有限,回答上述问题可能并不直接。由于您的数据有限,我会选择和的多个值——从稀疏到非稀疏先验——并通过计算一些保留数据的困惑度来找到适合数据集的值。更具体地说:αβ
- 从选择αm[0.05,0.1,0.5,1,5,10]
- 从选择βm[0.05,0.1,0.5,1,5,10]
- 对在训练数据上运行主题建模(αm,βm)
- 在保留测试数据上查找模型困惑
- 选择具有最小困惑和αmβm
资源: