我正在一个相当大的数据集上运行一个回归模型并且得到一个相当可悲的 分数约为 0.2(见下图),尽管该图看起来模型通常指向正确的方向。
我的问题是,当您拥有超过一百万个数据点时,您实际期望的数据点有多高? 以相当多的噪音进入现实世界的数据?
对此类传统措施持怀疑态度的是诸如此类的文章,这些文章讨论了数据量如何降低统计测试的质量。
让我知道您的想法以及使用的任何回归示例 得分作为质量指标。
我正在一个相当大的数据集上运行一个回归模型并且得到一个相当可悲的 分数约为 0.2(见下图),尽管该图看起来模型通常指向正确的方向。
我的问题是,当您拥有超过一百万个数据点时,您实际期望的数据点有多高? 以相当多的噪音进入现实世界的数据?
对此类传统措施持怀疑态度的是诸如此类的文章,这些文章讨论了数据量如何降低统计测试的质量。
让我知道您的想法以及使用的任何回归示例 得分作为质量指标。
决定系数是根据方差定义的:它是因变量中由自变量解释的方差的比例。方差是正态分布数据的属性。因此,仅当您假设因变量和自变量均呈正态分布时,才能使用决定系数。
就像正态分布数据的其他属性一样,随着数据量的增加而改善。对于非常少的数据,可能会出现巧合的共线性,但对于大量数据,这是不可能的。
回到你的例子。您的数据显然不是正态分布的,它有右偏并且有很大的异常值。因此,不建议使用 . 例如,想象一下,在左下角(大部分数据所在的位置),您会观察到负面趋势,但总体上是正面趋势。回归线将是相同的,并且将在同一范围内。这被称为辛普森悖论。
简而言之,如果您的数据是正态分布的,您可以使用对于任何大小的数据集。如果不是正态分布,则无法使用.
没有关于期望的一般答案分数。并且对于具有此功能的模型是否没有一般性答案score 是一个“好”的模型。有很多情况(1)这种score 不是不合理的,(2)模型仍然有用。看着这个数据,感觉不错,大部分数据集中在靠近原点的一个几乎类似磁盘的 blob 中。
您链接到的文章涉及统计置信度,这是一个非常不同的问题. 我猜考虑到数据量,尽管你认为的分数很低,p 值会很高。本文涉及 p-hacking,如果您考虑许多可能的输入与竞争模型,这是一个问题。只有一个,就像这里一样,如果这是您构建的唯一模型,这是合理的。
我认为保罗的回答非常好。我要补充的一点 分数是你应该只比较不同的 在同一组数据上估计的模型之间的分数。从概念上讲,比较没有任何意义 来自不同数据的模型之间的分数,因为 本身只是模型解释的结果的方差度量。不同的数据集会有不同数量的可解释的方差。
这是定义“好”的主要原因 分数很难。这 分数当然取决于您的模型的拟合度,但也取决于数据本身(数据集取决于其集合以及从中提取数据的域)。