我有一个类似的数据集:
pat_id epis Care Type
1 1722650 Acute Care
1 1723120 Rehabilitation care
2 1584309 Acute Care
2 1585705 Rehabilitation care
3 1726487 GEM
3 1664031 Acute Care
3 1726488 Acute Care
3 1726489 Rehabilitation care
每个患者都有多个“发作/护理类型”。我想对 50 名患者进行抽样,但也与人群中的“护理类型”大致成比例(例如,50% 的急性护理、30% 的康复护理、20% 的 GEM)。
我想到的一种方法是将数据集拆分为“acute”、“rehab”和“gem”,然后从“acute”中抽取 25 个样本,从“rehab”中抽取 15 个样本,从“gem”中抽取 10 个样本。但是使用这种方法会有重叠“例如,患者 1375 将处于宝石、急性和康复中。
是否有可以轻松处理这种采样的 R 包?