时间线分析

机器算法验证 时间线
2022-03-02 00:18:49

我正在使用来自几个 1 年出生队列的数据(例如http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2908417/)对一个人的出生顺序与后来的肥胖风险之间的关系进行研究。

一个关键挑战是出生顺序与其他特征有关,例如母亲年龄、年轻和/或年长兄弟姐妹的数量以及生育间隔,这些特征也可能通过不同的机制影响结果。此外,这些事情对以后肥胖风险的任何影响都可能会受到兄弟姐妹的性别构成的影响,包括“索引孩子”(出生队列的参与者)。

对于每个索引孩子,可以绘制一个显示家庭中所有出生的时间线,其中母亲的年龄在时间上是可变的。

在此处输入图像描述

我试图找出分析这些数据的方法,其中事件的顺序、时间和性质可能都很重要。我在这里问这个问题是因为成员使用的应用程序的多样性 - 我希望有人能立即提出一些建议,这些建议将花费我更长的时间来单独识别。任何在正确方向上的推动将不胜感激。

相关问题: 我应该如何分析女性生育间隔的数据?

3个回答

您可以考虑使用多级模型(混合回归)来估计家庭之间和家庭内部的影响。一种可能的策略是使用有计划的分层模型构建方法。例如,在单变量模型中测试每个潜在的预测变量。如果家庭间效应消除了出生顺序效应,那么强烈表明出生顺序并不重要,但其他影响是重要的。关于出生顺序对智商的影响的引用示例:

我希望这会有所帮助。

我将其作为一个统计问题来处理,并且对医学问题没有特别的了解。

看看你提到的文章,我看到一个队列包含 970 个人。如果您有几个大致相同大小的群组的数据,那么您的数据集的整体大小提供了选择相当大的子集的机会,其中每个人的时间线都满足特定条件。例如,一个子集可能包括母亲年龄在 25-29 岁之间的所有男性个体。对于这样一个子集,对后来肥胖的适当测量与出生顺序的回归将消除指数儿童性别差异对后来肥胖的任何可能影响,并在很大程度上消除母亲年龄的任何可能影响。

将这种方法扩展到兄弟姐妹的性别并不简单,因为如果子集的一个条件是,例如,索引孩子有一个年长的女性兄弟姐妹,这意味着索引孩子本身不是最年长的孩子,缩小范围回归中的自变量。但是,解决此问题的一种方法可能是使用“如果有”来定义条件。例如,一个子集可以定义为包括母亲年龄在 25-29 岁之间的所有男性个体和年龄较大的兄弟姐妹,如果有的话,都是女性。这样的子集仍将包括具有任何出生顺序的个人。

如果一个子集是由一组过于复杂的条件定义的,那么它所包含的个体数量可能会太小,以至于所得到的系数估计值太不精确而无用。如果采用这种方法,在定义子集时,可能需要在消除尽可能多的可能影响和包括足够多的个体以产生有用的结果之间进行判断性权衡。

我建议进行功能数据分析,但我怀疑您可能有很多孩子太少的家庭,无法获得合理的估计。不过,请继续阅读它,因为它可以满足您的需求。也许有人已经将它用于类似的数据。

如果您不想做如此大规模的非参数化操作,您应该利用您的临床专业知识来降低数据的维度。例如,模型中的一个变量可能是孩子的数量,另一个可能是孩子之间的平均年数,等等。如果这些变量有任何影响,即使您没有立即正确指定函数形式,它也可能会显示出来。进一步的知识驱动模型构建可以让你构建一个高度预测的模型——只要确保你保留一个验证集!