我一直在研究机器学习和生物信息学,今天我与一位同事就数据挖掘的主要一般问题进行了交谈。
我的同事(他是机器学习专家)说,在他看来,机器学习最重要的实际方面是如何理解你是否收集了足够的数据来训练你的机器学习模型。
这句话让我很吃惊,因为我从来没有这么重视过这方面……
然后,我在 Internet 上查找了更多信息,我发现FastML.com上的这篇文章根据经验报告,您需要的数据实例数量大约是功能数量的 10 倍。
两个问题:
1 - 这个问题在机器学习中真的特别重要吗?
2 - 10 次规则有效吗?这个主题还有其他相关来源吗?