我是机器学习(还有一些统计数据)的新手,已经学习了一段时间的知识(监督/非监督学习算法、相关优化方法、正则化、一些哲学(例如偏差-方差权衡?))。我知道,如果没有任何实际的实践,我不会对那些机器学习的东西有深入的了解。
所以我从一些真实数据的分类问题开始,比如手写数字分类(MNIST)。令我惊讶的是,在没有任何特征学习/工程的情况下,使用以原始像素值作为输入的随机森林分类器,准确率达到 0.97。我还尝试了其他学习算法,例如 SVM、LR,并调整了参数。
然后我迷路了,是不是太容易了,还是我在这里遗漏了什么?只是从工具包中选择一个学习算法并调整一些参数?
如果这一切都与实践中的机器学习有关,那么我将失去对这个领域的兴趣。我思考并阅读了几天的博客,得出了一些结论:
机器学习在实践中最重要的部分是特征工程,即给定数据,找出更好的特征表示。
使用哪种学习算法也很重要,参数调整也很重要,但最终的选择更多的是关于实验。
我不确定我是否理解正确,希望有人能纠正我并给我一些关于机器学习实践的建议。