我目前是数据科学领域的新手,尤其是 ML 领域。有多种解决问题的方法,即。有监督的,无监督的学习。我想知道这种方法是什么,以及如何确定在现实生活中的测试用例中究竟使用了哪些算法。
即使选择了一种特定的算法,我们怎么知道其他算法可能比这个算法有更好的准确性和精确度
我目前是数据科学领域的新手,尤其是 ML 领域。有多种解决问题的方法,即。有监督的,无监督的学习。我想知道这种方法是什么,以及如何确定在现实生活中的测试用例中究竟使用了哪些算法。
即使选择了一种特定的算法,我们怎么知道其他算法可能比这个算法有更好的准确性和精确度
尝试尽可能多的模型并选择最好的模型,否则请使用您的直觉来缩小候选人的范围。如果您没有直觉,请从简单模型开始,然后根据性能要求转向更复杂的模型。除了纯粹的性能指标之外,在现实世界中选择模型通常还有其他原因,例如简单性、可解释性和速度。
但是,您不必在监督学习和无监督学习之间进行选择,因为它们是截然不同的东西。如果我要求你对所有相似的项目进行分组,你将如何应用监督学习?
您可能会喜欢这张关于选择正确估算器的地图。
基本上,这完全取决于您要解决的问题类型。“即使是最有经验的数据科学家也无法在尝试之前判断哪种算法的性能最好。” 所以这里有一些参数,您可以根据这些参数决定为机器学习问题选择哪种算法。
1. 准确性
2. 训练时间
3. 线性
4.参数个数
5. 特征数量
微软发布了一份 PDF 备忘单,说明何时使用什么机器学习算法。从标题为“Microsoft Azure 机器学习工作室的机器学习算法备忘单”的配套博客文章中下载备忘单 (PDF)