我有一个包含儿童医学数据的数据集,我正在开发一个预测机器学习模型来预测不良妊娠结果。该数据集主要包含每个孩子具有单个值的特征,例如性别 = [“男性”,“女性]。但是,我有一些每个孩子有多个值的特征,例如每个孩子多次记录的腹围, 像这样:
ChildID abdomcirc
0 1 273
1 1 267
2 1 294
3 2 136
4 2 248
因此,在上表中,孩子 1 的 abdomcirc 有 3 个值,孩子 2 的 abdomcirc 有两个值。将此特征添加到剩余数据集(由单个观察特征组成)将导致几乎重复的行,除了 abdomcirc 的不同值,如下所示:
ChildID gender diabetes birthroute abdomcirc
0 1 Male No Normal 273
1 1 Male No Normal 267
2 1 Male No Normal 294
3 2 Female Yes csection 136
4 2 Female Yes csection 248
我不确定处理这些功能的最佳方法是什么,而不合并数据并具有近乎重复的行。我考虑了以下几点:
对 abdomcirc 使用 python 列表类型。但是,我不知道机器学习模型是否可以处理这种数据类型。所以我的数据看起来像这样
ChildID gender diabetes birthroute abdomcirc 0 1 Male No Normal [273, 267, 294] 1 2 Female Yes csection [136, 248]通过计算平均值将 abdomcirc 转换为单个观察特征(尽管我不确定这些信息对我的预测模型有多大用处),如下所示:
ChildID gender diabetes birthroute abdomcirc 0 1 Male No Normal 278 1 2 Female Yes csection 192
我已经尝试寻找资源来帮助我解决这个问题,但并不是很成功,可能是因为我没有输入正确的关键字或其他东西。所以,我会很感激你的意见和有用的资源。非常感谢!