如何知道机器学习是否适用于给定的数据集。我得到了一个数据集,我应该检查该数据集是否可以进行机器学习。我怎样才能做到这一点。您如何得出结论,机器学习是否可以针对给定的数据集执行。
机器学习的可行性研究
数据挖掘
机器学习
2021-09-22 16:38:48
2个回答
对于本可行性研究,以下将是高级步骤:
- 对于每个特征执行 PCA,其余特征为 train_x,特征为 train_y。如果你发现一个特征可以被其他特征预测;ML 可以应用于数据集
- 人类能解决吗?作为一个人; 你能根据其他特征找到给定特征的模式吗?
- 使用 Weka、Dataframe + Matplotlib 或类似工具进行探索性数据分析。https://datascienceguide.github.io/exploratory-data-analysis
我自己也多次问过同样的问题。添加一些背景信息:我使用相对较小的环境性质数据(每个实验约 100 个观察值),这通常是稀疏和/或不平衡的。
我的经验答案很简单:试试吧!此外,不要忘记 ML 是一个定义松散的术语——一些“经典”统计工具很可能属于它。
首先,使用领域知识设置适当的研究问题,并思考您的数据可以告诉您什么。然后开始探索基础知识:绘制相关图,检查数据是否呈正态分布等。然后您可以应用无监督学习来寻找更复杂的关系。也许之后你可能会做一些有监督的预测。
一个重要的评论。一方面,不要因 PCA 性能不佳而气馁——您的数据关系很可能不是线性的。另一方面,不要期望为每一个问题都建立一个神经网络——通常它们是不需要的。只需从低级别复杂性到更高级别的复杂性,直到继续有意义为止。
希望能帮助到你!
其它你可能感兴趣的问题