以时间很重要的方式评估主题建模的结果

数据挖掘 机器学习 深度学习 时间序列 评估 主题模型
2022-02-05 14:40:02

我对我的数据运行了不同的主题建模方法(其临床数据与认知障碍疾病相关。我们将处理哪些重要的事情使其发展为更严重的疾病)。在此之前,我将我的数据划分为不同的 6 个月数据(从起点每 6 个月返回一次),然后每 6 个月运行一次主题建模方法。我将看到每 6 个月的派生主题之间的差异。

例如,前六个月有 20 个主题,然后后六个月有 20 个主题,然后……直到第十个(5 年)。我希望看到一个不同的主题,因为我每六个月或至少每 1 年都有一个用例。但可悲的是,大多数单词每 6 个月重复一次。但是,单词的数量发生了变化。

例如,在前六个月,“睡觉”这个词在不同的主题中重复了 10 次,但在第二个 6 个月中,它已经重复了 4 次。

我要说的是,如果我们将此视为时间很重要的事情,除非我依靠每六个月变化的单词数量,否则我无法在我的数据中看到任何明显的模式。

您认为分析我的输出并在不同的 6 个月内绘制不同的字数是否有意义?或者它的东西不可靠。

另外,你介意让我知道我可以应用哪些其他方法来从我的主题建模的输出中获得洞察力(请考虑每六个月的变化很重要)?

1个回答

我认为问题在于您正在查看的项目(“睡眠”一词)是一个罕见事件,因此您观察到一个事件的概率约为 0。从技术上讲,它被称为泊松过程。

规避它的一种方法是您所做的:在一段时间内(在您的情况下为 6 个月)汇总,以便事件的数量变得重要。

不过,您不需要在 6 个月期间缩短观察时间,您可以使用移动平均线:期间 1-6、2-7、3-8、4-9、... 如果有时间模式,它将是更明显。

另一种方法是使用累积数据:到时间t的单词数。如果你得到一个逻辑“S”形曲线,那么你就很重要。

基本上,您想查看某个词(sleep)在 CI 子群中是否比非 CI 子群更频繁。您可以使用t检验(未配对的观测值、不等的样本量、相等的方差)来检查两个子群体中单词的计数是否显着不同。随着时间的推移,你可以做到这一点。

如果文档具有相同的作者,则可以在本文处理类似的测试问题的论文中找到更适合的测试。同样,没有什么能阻止每个时间段进行测试,无论是否累积。