是否可以使用线性回归或任何其他模型来判断 Y 是否随着 X 的增加而增加?

数据挖掘 线性回归
2022-03-08 17:18:01

我有一个像这样的数据库:

Site    X    Y
S1      1    1.5
S1      1    1.3
S1      2    1.7
S1      1    1.1
S1      4    5.9
S2      3    4.0
S2      2    2.5
S2      4    9.1
S2      4    9.2
S2      1    2.3

我需要找到是否Y增加为X每个站点都会增加。换句话说,更大X对应更大Y.

我知道线性回归可能适合这个问题。但请看下图:

在此处输入图像描述

图 1 不是我想要的,因为很小X对应大Y. 但是,图 2 是我想要的。当我使用线性回归模型和 RMSE 作为衡量标准时,它无法区分图 1 和图 2 之间的差异。

关于我的数据库的另一件事是:X就像级别一样,对所有站点都相同。但是Y's每个网站都是不同的。例如,对于一个站点,X=1Y=20方法20是一个小值,因为它对应于最低级别X. 但对于另一个网站,Y=15X=6方法15是最高值,因为X是最高级别。

所以,我的问题是:对于每个站点,我需要使用线性模型或任何其他算法来判断是否Y增加为X做。然后,我需要使用度量来选择一些站点。

2个回答

我认为线性模型对您的问题不是一个好主意,因为它只能捕获线性模式。此外,如果我对您的理解正确,由于比例/坡度不同,不同站点的结果将无法比较。

相反,我建议使用Spearman 等级相关系数

线性回归将帮助您确定是否Y 趋于增加X,但它不是证明总是Y 增加的好工具X为此,您需要设计一个算法。

为了证明在每个站点Y总是增加X,首先创建一个X按升序排列的唯一表,Y每个站点都有相应的最小值和最大值:

S1:
X    min(Y)    max(Y)
1    1.1       1.5
2    1.7       1.7    
4    5.9       5.9

S2:
X    min(Y)    max(Y)
1    2.3       2.3
2    2.5       2.5    
3    4.0       4.0
4    9.1       9.2

现在为每个站点验证以下内容: 对于每个X检查 max( Y) 是否小于 min( Y) for X+1如果这个条件失败了,那么你已经证明Y并不总是X在每个站点都增加,否则你可以说它确实如此。