我有一个定义明确的数据,我已将数据清理为最终形式,其中有 20 个特征映射到 1 到 100 之间的数字。每行最多启用 5 个特征(值设置为 1)。数据如下所示
Result|f1|f2|...f19|f20
45 |0 | 1|... 1 | 0
92 |0 | 0|... 1 | 1
我正在尝试构建机器学习模型,该模型可以为我提供良好的准确性,最好是可以处理的模型,warm_start 因为每次迭代都会生成 1 行,我需要适应现有的构建模型。
下面是我试图设置一些基线的 2 个分类器
randclf = RandomForestClassifier(n_estimators=50)
decclf = DecisionTreeClassifier(criterion = "gini", random_state = 100,max_depth=3, min_samples_leaf=5)
然而,即使有 100,000 条记录,我的结果也很差,准确率约为 15-20%。考虑到数据的可预测性(数据是基于有限的规则集生成的),我期待非常高的准确性。
我做错了什么,我想根据给定的特征对数据(预测结果)进行高精度分类,你能推荐一些可能适用于这类数据的模型吗?张量流和神经网络方法呢?
数据:
https://github.com/sachinhegde6/machinelearningdata
更新: 数据不平衡是我无法帮助的,因为它们是根据规则生成的。
