我有一个数据集,其中包含(除其他外)一个具有多个级别的分类变量以及与每个级别相关的更多属性。
例如,考虑根据上次维修报告预测机器故障。
- 一台机器有许多(许多)不同的部件。
- 每个部分都可能已损坏或未损坏。
- 如果损坏,它可能已经过检查、修理或更换等。
- 这些操作具有相关成本,并且零件本身具有货币价值和其他属性(例如修复它所花费的时间......)。
- 如果损坏,它可能已经过检查、修理或更换等。
- 每个部分都可能已损坏或未损坏。
如果我想对一台机器的水平进行预测,我需要汇总所有这些信息。我可以对所有部件进行一次热编码,以指示它们是否已损坏。但这仍然给我留下了较低级别的其他属性,例如价格和执行的操作。通过考虑所有的组合,我可能会进一步将它们扩展为单独的列,part_X-repaired-..-price, part_X-replaced-..-price, ... part_Z-replaced-..-price但这似乎失控了。
有没有更好的方法来处理这种类型的数据?我在想也许是一些聚类技术,但是当我尝试设置它时,我遇到了同样的问题。
它在某种程度上是一种颠倒的层次模型结构(在层次(线性)模型中,如果我没记错的话,结果变量处于最低级别)。