Max Pooling 和 Conv 是否用于除图像之外的其他任何东西?

数据挖掘 机器学习 卷积
2022-02-13 16:30:07

你能想到除了 2D 图像之外的任何应用领域,使用最大池化或卷积是有意义的吗?

因为 ONNX 格式允许非 2D 输入。在运营商页面(https://github.com/onnx/onnx/blob/master/docs/Operators.md#MaxPool)他们说

图像大小为 (N x C x H x W),其中 N 是批量大小,C 是通道数,H 和 W 是数据的高度和宽度。对于非图像情况,尺寸为 (N x C x D1 x D2 ... Dn)

我进行了搜索,但找不到非图像的应用程序。

2个回答

正如@Aditya 提到的,我们也可以使用 1D Convolutions 和 Max Pooling 进行文本分类。它已被用于情绪分析,并提供了相当不错的性能。这里这里

另一个有用的应用是信号处理对来自各种传感器的数据进行分类是 CNN 的任务。

您可以使用一维卷积开发人类活动识别器。这里

但是,为什么不使用 RNN 而不是 CNN?

如果您在智能手机(或任何其他物联网设备)上运行 RNN,则需要更高级别的数据预处理并且推理速度较低。在这种情况下,CNN 非常快。

使用 MFCC 的音频分类是使用 1D 卷积神经网络执行的。这里

2D 卷积主要用于与图像相关的 ML 任务。他们可以从二维数组(图像)中提取空间特征。在某些情况下,您可以将它们用于不是图像的 2D 数据。

你能想到除了 2D 图像之外的任何应用领域,使用最大池化或卷积是有意义的吗?

卷积和最大池化都用于其他领域。在这里您可以看到两者都用于文本: Text Classification using CNN

它们甚至不必是二维的。这是另一个一维音频数据的例子: Keras Sequential Conv1D Model Classification

卷积和最大池化用于构建模型,假设彼此接近的特征将具有更强的相互关系。这与域无关,因此它们是图像中的像素还是文本中的单词都没有关系。