多模式和多变量有什么区别?

机器算法验证 分布 多元分析 术语 模式
2022-04-01 23:49:13

有人可以解释一下“多模式”和“多变量”之间的区别吗?

例如,我有一个包含不同信息的数据集。所有信息对象都通过时间戳连接在一起。这个数据集是多模式的还是多变量的?如果我创建一个算法来对这些数据进行聚类,我应该将此算法称为多模式还是多变量?

2个回答

简单地说,“多模态”是指一个数据集(变量),其中有多个模式,而“多变量”是指一个数据集,其中有多个变量

这是一个简单的演示,用 R 编码:

set.seed(5104)
x1mm = c(rnorm(50, mean=-2), rnorm(50, mean=2))
x1um = rnorm(100, mean=0.5, sd=sqrt(3))
plot(density(x1mm), main="multimodal data")
plot(density(x1um), main="unimodal data")

在此处输入图像描述

y = .5*x1um + rnorm(100)
plot(x1um, y, xlab="X", ylab="Y", main="bivariate data")

在此处输入图像描述

这就是它的要点。当您有响应变量和回归变量,并且想要拟合映射它们的模型时,“多变量”的使用取决于映射的性质。当只有一个响应和一个协变量时,我们说这是简单回归;如果有多个协变量,我们说它是多元回归;如果有多个响应变量,我们称之为多元回归。就您而言,我认为您对聚类/无监督学习感兴趣,因此这些区别并不真正适用。

然而,集群方面使这更有趣。为了成功集群,您通常希望您的数据在完整数据空间中是多模式的。通过找到一个分区来找到集群/潜在分组,该分区将数据分成比原始(未分区)超集更连贯的单峰子集。

多变量是指您有多个结果变量(不是水平)的情况。如果您只有一个结果变量,则可以说是单变量问题。但正如@gung 已经说过的那样,在实践中,有时甚至在教科书中,这些术语都会变得有点模糊,并且通常指的是你有两个以上输入变量的情况,例如多元回归等。

其中多模式是指实验设计。有人说,如果您用不同的方法(例如问卷调查和观察)测量一个构造,则模型是多模态的。但它也可以指您的数据的分布。

总而言之,这些术语的含义在很大程度上取决于上下文。