我正在尝试建立一个模型来预测无线设备的通信损失。现在我使用 RandomForestClassifier 以及 Device 和 Location 作为功能。我的火车分数和测试分数都是 99%。所以我很确定这个模型给出了有偏见的结果。原因之一可能是因为通讯丢失事件的记录与没有通讯丢失的记录相比非常少有人建议我可能无法根据情况建立预测模型。但如果有什么我能做的,我想有更多的建议或意见。
当事件的记录与记录总数相比较少时,如何构建无偏的预测 ML 模型?
数据挖掘
机器学习
数据
数据科学模型
2022-03-09 22:56:42
1个回答
1)您的数据似乎不平衡,您应该调查一下。常见的技术包括对少数类进行过采样,但在这里您可能会遇到更大的问题。
2)不清楚您是否有足够的信息来实现您想要实现的目标(设备类型和位置似乎还不够)。
3) 基于前面两点,您必须承认您不太可能获得事件的日期。如果您尝试将 ML 应用于问题,那么人类是否能够猜测这是一个很好的问题。如果答案是否定的,那么 ML 解决方案不太可能奏效。您可以进行统计分析以尝试了解是否存在更容易丢失的设备类型或位置,但您将无法获得丢失的确切时间和位置。