在进行机器学习项目时,我们听说逻辑回归适用于“线性数据”,而决策树适用于“非线性数据”
然而,线性和非线性数据的概念没有意义。对我来说,只有线性可分数据和非线性可分数据对我有意义,只有说逻辑回归适用于“线性可分数据”才有意义,因为它是一个线性函数。在数学中,线性函数是一阶多项式,所有其他非线性函数都被认为是非线性函数。
什么是线性数据和非线性数据?
在进行机器学习项目时,我们听说逻辑回归适用于“线性数据”,而决策树适用于“非线性数据”
然而,线性和非线性数据的概念没有意义。对我来说,只有线性可分数据和非线性可分数据对我有意义,只有说逻辑回归适用于“线性可分数据”才有意义,因为它是一个线性函数。在数学中,线性函数是一阶多项式,所有其他非线性函数都被认为是非线性函数。
什么是线性数据和非线性数据?
我会说,命名线性数据或非线性数据有点误导和错误。相反,变量之间存在线性关系和非线性关系会更好,更正确的命名。它可以很容易地通过现实生活中的例子来解释。
y = intercept + x^2,平方根关系:y = intercept + 6 * sqrt(x)等)让我们想象一个我们不知道自由落体方程并且我们使用的世界ML 来学习和预测它:)。在这种情况下(特定和简化的情况),算法需要学习以下结构中的方程s = v₀t + (1/2)gt²,其中 t 是我们的自变量,s 是我们的目标或因变量,v₀, g 是我们要学习的系数。换句话说,您可能希望使用时间来预测自由落体(距离或高度)。在那个虚构的世界里,牛顿的万有引力定律,(F = G * (M1 * M2) / r^2)圆的面积(A = π * r^2)也将是 ML 的二次问题。除非您使用某种变换,否则线性函数不满足这种情况的要求,比如说从牛顿定律中取 r^2 的平方根或从自由落体中取 t^2 的平方根,然后在线性函数中使用它们。非线性现实生活中最著名的例子是使用年龄来预测身高。然而,高度以不同的速率连续变化:直到 13 逐渐增加,在 13-18 之间显着增加,在 18-25 之间略有变化,在 25 之后没有变化。因此,不可能将其拟合到线性方程中,因为它不依赖于单个系数,或者无法拟合到公式中height = intercept + b * age因为系数(b)随着时间(年龄)不是恒定的。此外,Graph、Tree 和其他类似的结构也被拟合成非线性关系。在结果高度依赖于ifs 的情况下,线性算法是无用的,因为您无法将关系拟合到y = a + b * x. 比方说,您想根据他们的走法预测谁将赢得一盘棋,您可以使用树状(例如:alpha-beta 剪枝)算法来预测它。y = a + b * x公式甚至来解释y = a + b1* x1 + b2*x2 + ...。最简单的例子是预测在酒吧(或任何类型的娱乐场所)花费的成本。cost = intercept (let's imagine you pay money for entering to the bar) + (the price of a drink) * (the number of drinks bought) + (the price of appetizer) * (the number of appetizers bought)将是我们的公式。