如何为纵向数据中的人员创建组 ID

数据挖掘 Python 关联规则
2022-03-07 23:36:18

我有一个包含个人及其居住地址的大型数据集。我想根据共享地址创建一个组 ID(工作理念:共享相同地址的人可以被视为同一个家庭/家庭的一部分)。从那个家庭 ID,我的 PI 想要调查由于生活成本增加/减少而导致的家庭/家庭迁移超时。

然而,困难在于数据集/分析是纵向的。所以我们有这个跨越多个连续时间段的数据集。我们想为每个人附加一个家庭 ID,他们可以在数据中的任何位置与之关联。这有几个问题。

  • 人们搬进/搬出家庭。
  • 人们与其他人建立自己的家庭
  • 该数据集不跟踪 18 岁以下的人,因此当他们成年时,他们会在他们年满 18 岁的数据期间弹出
  • ETC

PI 对家庭的定义很灵活,到目前为止我们已经提出了一些想法。

  • 锚定家庭:在研究开始时创建具有链接地址的家庭 ID,并让这些个人与此起始 ID 相关联。问题:个人与家庭断绝/分裂导致

  • Captain/HeadofHouse:在数据开始时跟踪家庭中的一个人,并根据分配给他们的队长 ID 对进入其家庭的人进行分组。问题:很难区分谁被任命为队长。

  • 多个ID:在每个数据周期分配ID,然后创建关联图。迄今为止最好的想法,但可能会使分析更加困难。

  • 织带:使用组件连接在时间段内连接每个人。消除了弱连接(1-2 个关联或更少)。例如,我将与我的室友拥有的每个室友联系在一起。问题:超级混乱(尽管尝试和实施可能很有趣)

因此,我正在寻找有关如何处理纵向分组问题的资源或建议。到目前为止,我已经研究了连通分量、关联组和图论。请,如果您有任何建议,我将不胜感激。我正在使用 Python,所以任何库建议也将不胜感激。

请让我知道是否需要进一步解释,或者是否有其他有用的信息。

0个回答
没有发现任何回复~