我不知道如何解释基线 ML 模型的概念。
“在花费数月清理数据之前,请准确确定您想要使用该数据的目的,并建立基线 ML 模型来指导您进行清理之旅。”
这是否意味着,一开始就应该收集数据,进行轻微的预处理(为变量设置正确的类型,估算缺失数据,删除异常值,标准化),一次运行多个算法并检查性能?快速构建和训练一个基本系统?Max 2 天有效吗?
如果结果是 ca。R=20%?
作为基线的模型会被接受吗?
我不知道如何解释基线 ML 模型的概念。
“在花费数月清理数据之前,请准确确定您想要使用该数据的目的,并建立基线 ML 模型来指导您进行清理之旅。”
这是否意味着,一开始就应该收集数据,进行轻微的预处理(为变量设置正确的类型,估算缺失数据,删除异常值,标准化),一次运行多个算法并检查性能?快速构建和训练一个基本系统?Max 2 天有效吗?
如果结果是 ca。R=20%?
作为基线的模型会被接受吗?
基线模型是一种简单的预测方式。从事这类工作的人有时会被公司付钱让他们这样做。通过取得比他们不做太多工作时更好的表现来证明你对公司的薪水是合理的。
示例:如果您想预测明天的预期股票价格,请天真地猜测今天的价格。你不需要一个花哨的数据科学团队来做到这一点。如果数据科学团队不能比那个基线模型做得更好,那么他们的模型就会比几乎不需要任何工作的天真、简单的模型更糟糕。你会向一个甚至无法达到你可以从手机上的库存应用程序中获得的性能的团队支付数千或数百万美元吗?
当您为线性回归计算时,您将模型与基线模型进行比较,基线模型总是猜测观察到的值的平均值。SSRes是衡量模型有多少误差(方差)的分子,而分母中的始终达到数据汇总平均值的朴素模型有多少误差(方差)。
(分母会抵消以给出更熟悉的方程,但我认为这种表示将其与方差联系起来。)
\frac{\sum (与相同,如果每个,换句话说,总是猜测的平均值。