R中的复回归图

机器算法验证 r 数据可视化 回归
2022-03-21 12:08:20

我需要为可视化数据分析绘制复杂的图形。我有 2 个变量和大量案例(>1000)。例如(数字为 100,如果要使分散不那么“正常”):

x <- rnorm(100,mean=95,sd=50)
y <- rnorm(100,mean=35,sd=20)
d <- data.frame(x=x,y=y)

1)我需要用点大小绘制原始数据,对应巧合的相对频率,所以plot(x,y)不是一个选项 - 我需要点大小。应该做些什么来实现这一目标?

2)在同一个图上,我需要绘制 95% 置信区间椭圆和表示相关变化的线(不知道如何正确命名) - 像这样:

library(corrgram)
corrgram(d, order=TRUE, lower.panel=panel.ellipse, upper.panel=panel.pts)

相关图

但是两个图都在一个图上。

3)最后,我需要在这一切之上绘制一个结果线性回归模型:

r<-lm(y~x, data=d)
abline(r,col=2,lwd=2)

但有错误范围......类似于QQ图:

QQ图

但对于拟合错误,如果可能的话。

所以问题是:

如何在一张图上实现所有这些?

2个回答

下面的图片看起来像你想要实现的吗?

在此处输入图像描述

这是更新的R 代码,根据您的评论:

do.it <- function(df, type="confidence", ...) {
  require(ellipse)
  lm0 <- lm(y ~ x, data=df)
  xc <- with(df, xyTable(x, y))
  df.new <- data.frame(x=seq(min(df$x), max(df$x), 0.1))
  pred.ulb <- predict(lm0, df.new, interval=type)
  pred.lo <- predict(loess(y ~ x, data=df), df.new)
  plot(xc$x, xc$y, cex=xc$number*2/3, xlab="x", ylab="y", ...)
  abline(lm0, col="red")
  lines(df.new$x, pred.lo, col="green", lwd=1.5)
  lines(df.new$x, pred.ulb[,"lwr"], lty=2, col="red")
  lines(df.new$x, pred.ulb[,"upr"], lty=2, col="red")    
  lines(ellipse(cor(df$x, df$y), scale=c(sd(df$x),sd(df$y)), 
        centre=c(mean(df$x),mean(df$y))), lwd=1.5, col="green")
  invisible(lm0)
}

set.seed(101)
n <- 1000
x <- rnorm(n, mean=2)
y <- 1.5 + 0.4*x + rnorm(n)
df <- data.frame(x=x, y=y)

# take a bootstrap sample
df <- df[sample(nrow(df), nrow(df), rep=TRUE),]

do.it(df, pch=19, col=rgb(0,0,.7,.5))

这是ggplotized版本

在此处输入图像描述

使用以下代码生成:

xc <- with(df, xyTable(x, y))
df2 <- cbind.data.frame(x=xc$x, y=xc$y, n=xc$number)
df.ell <- as.data.frame(with(df, ellipse(cor(x, y), 
                                         scale=c(sd(x),sd(y)), 
                                         centre=c(mean(x),mean(y)))))
library(ggplot2)

ggplot(data=df2, aes(x=x, y=y)) + 
  geom_point(aes(size=n), alpha=.6) + 
  stat_smooth(data=df, method="loess", se=FALSE, color="green") + 
  stat_smooth(data=df, method="lm") +
  geom_path(data=df.ell, colour="green", size=1.2)

可以通过添加模型拟合指数(如 Cook 距离)和颜色阴影效果对其进行更多定制。

对于第 1 点,只需使用cex绘图上的参数来设置点大小。

例如

x = rnorm(100)
plot(x, pch=20, cex=abs(x))

要在一个绘图中包含多个图形,请使用par(mfrow=c(numrows, numcols))均匀分布的布局或layout更复杂的布局。