Yaser Abu-Mostafa 教授在他的加州理工学院机器学习课程的第一堂课中简要谈到了这一点。他确定了在考虑将机器学习应用于您的问题之前必须考虑的 3 个基本点:
第一个。存在模式
为了能够使用您的特征来预测任何事物,这些特征与您所预测的事物之间必须存在某种关系。
这方面的一个例子可能是试图通过使用关于他昨天吃什么的数据来预测人的身高。这两者之间可能没有关系,因此机器学习不适用。
第二。该模式不能用数学方法写下来
如果您可以使用数学公式解决输入变量和预测之间的关系,则无需应用机器学习。
这一点的例子可能是使用机器学习来尝试预测轮盘游戏中的赔率。您可以通过使用概率论中的方程式计算所有概率来做到这一点。计算出来的几率是准确的,机器学习只会产生不太可靠的解决方案。
第三。你有数据
机器学习尝试根据示例估计参数。如果没有数据,您将无法开始使用机器学习。
这方面的例子可能是试图通过使用关于政治气候、双方拥有的技术、军事支出等的各种数据来预测谁将赢得一场战争。如果你有很多战争的数据,你也许可以做到这一点。但是由于战争非常罕见,而且没有办法按需生产更多的战争——机器学习将无法工作。
这些是主要的要求——机器学习的本质。
简要介绍问题中的示例:
1)我们的数据集中有相当高精度的真实标签。
这似乎是高度主观的和上下文相关的。考虑预测一个人的死亡年龄,当你拥有的数据只有他们医生的“最佳猜测”时。数据会非常嘈杂,但是如果我们在应用机器学习后可以将未知因素减少 5% 左右 - 这可能是值得的:算法将与专业人士的猜测一样好。
2) 采样数据的分布保持相对恒定。
这不是硬性要求。机器学习的一个子领域试图处理此类问题,称为概念漂移
3)我们试图学习的输出实际上是我们给定的输入的函数。
这与教授提到的第一个相同。阿布-穆斯塔法。“模式存在”。
4)我们的数据集中独立样本的有效数量对于数据集中的噪声水平足够高。
这是非常相关的,但同时也是主观的,就像问题中提到的第一点一样。对于某些问题,百分之几的改进可能被认为是足够好的。
5) 我们希望模型优化的指标是可量化的。
不知道我是否理解这一点。从评论看来,它似乎是在讨论不同解决方案的比较,以便选择更好的解决方案。我不能很快想到一个不满足的场景。除非练习者心中并没有明确的目标。