从最小数据进行预测的算法

数据挖掘 机器学习 数据集 数据 机器学习模型
2022-02-25 06:01:53

我正在处理分类问题。我有一个包含很多特征的数据集。他们中的很多人可以很容易地确定班级。在生产中,我想要求用户只向我提供部分信息。

哪种算法能够从不完整的数据中做出相当准确的预测?

我在考虑决策树,但我不想确定我的算法的入口点。

假设我的特征是二元的。我想为我的用户选择最常见的功能,并根据这些信息做出非常准确的预测。

1个回答

如果您的功能集确实很大并且大多数变量都是强大的功能并且可以自己确定一个类,我会尝试使用弹性网络进行逻辑回归(套索可能更少,而在山脊一侧则更多,所以你不要丢弃那些碰巧总是同时出现在你的数据集中但不是在现实中的特征)。

只要确保只考虑出现频率足够高的特征,以避免过度拟合。当示例数量小于特征数量时,这很容易发生。

随机森林也值得一试,但根据我的经验,如果强特征的数量确实很大但它们都相对很少发生,那么与逻辑回归相比,RF 表现不佳。

顺便提一句。用户只透露部分信息这一事实可能根本不是问题,只要提供的信息可以轻松确定类别 - 正如您所说。我只是试一试。