当我知道 gensim 是用于主题建模的有用库时,我在大量文档上进行了尝试。仅当要修复字典大小时,它才能正常工作。在我的情况下,我拥有每个令牌都很重要,所以那时我会有大量的令牌 gensim algo like (LDA,LSA,etc) 失败并出现内存执行问题。实际上,他们写道,文档数量没有限制,但在内部,他们保持字典大小固定,这就是为什么如果新单词出现并超过限制而不是开始截断它的原因。我不想尽可能截断我的令牌。那么有什么解决方案可以解决我在大数据上的主题建模问题。我有资源限制。
如何对非常庞大的数据进行主题建模?
数据挖掘
机器学习
主题模型
低密度脂蛋白
gensim
2022-02-16 18:42:52
1个回答
使用filter_extremes过滤掉出现在少于no_below文档(绝对数)或多于no_above文档(总语料库大小的分数,而不是绝对数)中的标记。
只保留第一个keep_n最频繁的标记(如果没有,则保留所有标记)。
修剪后,缩小单词 id 中产生的间隙。
其它你可能感兴趣的问题