数据挖掘 - 用于稀疏 one-hot 表示的卷积神经网络 - 吾爱随笔录

用于稀疏 one-hot 表示的卷积神经网络

数据挖掘神经网络深度学习卷积网络

2021-10-06 17:07:44

我有一些基本特征，我在one-hot vector中编码。

特征向量的长度等于 400。它是稀疏的。

我看到卷积网络被应用于密集的特征向量。

将卷积网络应用于稀疏特征向量有什么问题吗？

2个回答

我不会将卷积神经网络应用于您的问题（至少从我可以从描述中收集到的内容）。

卷积网络的优点和缺点与模型类中的一个核心假设有关：以常规方式翻译特征模式对结果的影响很小，或者具有特定的有用意义。因此1 0 1，在特征 9、10、11 中看到的模式在某种程度上与在特征 15、16、17 中看到的相同模式相似。将这个假设内置到模型中，您可以在处理图像数据时用更少的自由参数训练网络，这是扫描仪和相机捕获的数据的关键属性。

通过对特征进行 one-hot 编码，您可以从一个值或类别中分配一个特征向量索引，基本上是随机的（通过一些散列函数）。特征向量的索引之间的转换没有意义。模式0 0 1 0 1 0 0 和0 0 0 1 0 1 0可以代表完全不同的事物，它们之间的任何关联纯属偶然。如果您愿意，您可以将稀疏的 one-hot 编码视为图像，但没有充分的理由这样做，并且假设可以进行翻译同时保留含义的模型效果不佳。

对于这么小的稀疏特征向量，假设你想尝试一个神经网络模型，使用一个简单的全连接网络。

尽管我同意 Neil Slater 的回应，但您应该记住几件事。

1）“你永远不知道！” 在数据探索中，你永远不知道你会发现什么。如果你有大量数据，也许使用 20x20 的卷积网络会给你一些不错的结果。当然，如果它要学习的不仅仅是几个特征，那将是有帮助的......如果你的 400 长度向量是一次性 4 个不同特征的结果，那么可以肯定地说卷积网络不会不会给你太多。

2）如果您正在寻找实施conv网络的理由，那就去吧。即使你的准确度指标很糟糕，你至少可以学习如何使用自己的数据创建网络、训练和预测......不能低估这种学习体验！比运行另一个开箱即用的 mnist 示例更有价值。

3）比较。制作一个常规网络和一个转换网络......然后你可以比较两者。不仅如此，将其与随机森林、逻辑回归等进行比较。这样做足够多的时间，你就会开始培养直觉。

我说做！（除非有人付钱给你......在这种情况下，请先尝试常规 NN）

其它你可能感兴趣的问题

上一篇使用 Python 按类别汇总统计信息下一篇对整个数据集进行标签编码会导致数据泄漏吗？