在人类语言中,rnorm(n=1000, m=24.2, sd=2.2)返回服从正态分布的随机数。另一种解释可能是它返回可以创建直方图的随机数。如果您绘制正常(钟形)曲线,它将完全适合此直方图。你能用dnorm这种人类语言解释吗(或者甚至用数学和/或图形,但新手可以理解)?
R中的rnorm与dnorm
你知道标准正态分布的概率密度函数是
.
dnorm() 函数只是用来计算这个函数的值。
您可以使用以下 R 代码进行测试
density_standard_norm <- function(x)
{
1/sqrt(2*pi)*exp(-0.5*x^2)
}
dnorm(1, mean = 0, sd = 1)
[1] 0.2419707
density_standard_norm(1)
[1] 0.2419707
dnorm(2, mean = 0, sd = 1)
[1] 0.05399097
density_standard_norm(2)
[1] 0.05399097
他们是平等的。对于非标准正常来说,它是相同的。
很难用dnorm类似的术语来描述,因为这是一种有点倒退的想法rnorm。
中的ddnorm代表概率密度函数,或PDF。选择“密度”一词是因为概率密度函数类似于化学中物质的密度:输入是概率分布支持的位置(类似于物质内部空间中的位置),输出是该位置附近有多少“东西”的相对量度。
- 如果你踩到一些污垢,你踩到的部分会比周围的材料更致密
- 如果湖泊部分结冰,结冰部分的密度将低于液态部分
- 对于正态分布的变量,观察到一个点的概率大于观察一个点的概率.
连续概率分布的有趣之处在于“位置”的概念很难量化。实际上,当我们在数学中谈论“位置”时,通常是在谈论“点”。“点”是一个很小的结构,它的空间范围为零;一个点无限小。因此我们不能看随机变量遵循正态分布并说“概率是某某”,因为是一个空间范围为零的点。一旦你研究了基础数学,你就会意识到概率实际上为零等于任何实数。 [1]
这适用于任何连续概率分布,包括范数al( 的范数部分dnorm)分布。因此,在我看来,不用方程式理解的最好方法dnorm就是说
如果
dnorm(y1)大于dnorm(y2),则指向附近通常比附近的点具有更高的概率.
这是一个故意的非技术性和不严格的定义。没有普遍适用的标准来定义“附近”在任何特定上下文中的含义。但是,如果你牢记物理物质密度的类比,你就不会完全错了。
回想一下,我说过你的描述rnorm有点倒退。那是因为dnorm实际上是描述随机变量遵循正态分布意味着什么的函数。函数只是输入和输出之间的映射:dnorm是对可能值之间映射的完整描述以及这些值的概率密度。这定义了概率分布. rnorm当您以尊重其相对密度的方式重复采样数字时会发生这种情况:高密度区域中的值比低密度区域中的值更有可能出现。只是不要过分思考“区域”到底是什么,或者特定区域的开始和结束位置。
顺便说一句,R 确实具有绘制平滑函数的能力:
plot(dnorm, from = -4, to = 4)
比
plot(density(rnorm(50000), bw = "nrd"), xlim = c(-4, 4))
并强调 . 的“基本”性质dnorm与 .的“衍生”性质rnorm。
[1]:如果这让你的大脑发痒,不妨这样想:如果是,那么概率是多少? 怎么样? 或者? 将无限多点塞入有限空间的唯一合理方法是使每个点无限小。