数据挖掘 - 如何构建有监督的人工神经网络？ - 吾爱随笔录

如何构建有监督的人工神经网络？

数据挖掘机器学习神经网络算法监督学习

2021-09-26 06:26:55

我正在尝试构建和训练一种机器学习数据科学算法，该算法可以正确预测总统在哪个县赢得了什么。我有以下有关训练数据的信息。

总人口年龄中位数 % 学士及以上学历失业率人均收入家庭总数平均家庭规模 % 自住住房 % 租房者自住住房 % 空置住房房价中位数人口增长房屋持有增长人均收入增长获胜者

我是该领域的新手，这是我第一次构建人工神经网络，我不知道从何开始（如果我的问题非常广泛，请原谅我）。到目前为止，我所做的是阅读人工神经网络的维基百科页面。我接下来要做的是使用训练数据实现监督学习。

我将不胜感激任何帮助入门。如果您使用任何好的教程或库来帮助构建类似的东西，请告诉我。我正在考虑使用图书馆烤宽面条。

当我尝试使用千层面时，我遇到了一些具体问题 - 使用训练数据构建算法时我要计算的错误是什么？我需要多少层，每层意味着什么？

2个回答

请注意，我正在交叉发布此答案，因为该问题是交叉发布的，其中一个问题可能会被删除。如果这违反了礼节，请告诉我。交叉帖子在这里。

这个问题有两个部分，至少是隐含的。第二部分，一般来说，是如何从神经网络中训练和预测（在 Python 中）。第一部分是（隐含地）我们如何建立一个模型，根据人口统计数据（正确地）预测哪个人赢得了总统职位。

第二个问题的答案说起来很容易，但做起来却很难。它归结为一个相当无益的陈述： 了解神经网络，并使用这些知识。谷歌关于神经网络的教程。我会提出建议，但我不了解您的数学、统计和计算机科学背景，因此无法真正提出建议。

然而，我可以回答第一个问题，尽管可能不是您想要的方式。仅使用您列出的数据，您就不太可能从您的神经网络或您适合的任何其他模型中获得任何类型的准确性。为什么？有几个原因。

首先是，除非您总是可以将总统分为两个（或更多）不同的群体之一，就像在美国（民主党、共和党）那样，您的数据一直在变化。如果没有类，您就无法对任何内容进行分类，这在某些国家/地区很困难。

其次，即使有不同的类别，人口统计数据也可能不是一组好的预测指标。人口数据的变化取决于地方治理的好坏以及整体治理。您也许可以以某种方式对其进行编码。但人口统计数据也会因许多其他因素而发生变化。当谈到投票时，人们会根据一堆事情选择投票，而他们的人口统计状况只是一个因素。

第三个原因更多的是谨慎。神经网络和各种机器学习/统计建模方法可以使用正确的数据提供良好的预测。预测总统之类的事情相对困难，尤其是在较小的国家。（Nate Silver 在美国做得很好，但那里的数据要多得多。）即使你有很好的数据和很好的模型，你也总会错过一些东西。George Box 说得对：“所有模型都是错误的，但有些模型是有用的。” 当你提到正确预测时，我脑海中就会响起各种各样的警钟。尝试“正确”预测的问题在于，即使在简单的情况下，也不能保证您的预测是正确的。没有模型是完美的。

如果您使用任何好的教程或库来帮助构建类似的东西，请告诉我。

我强烈推荐 Michael Nielsen 的在线书籍：神经网络和深度学习。谈到图书馆的建议，我发现Keras在我学习神经网络时非常有用且简单。然而，烤宽面条也是一个不错的选择。

您可以从此问题了解更多库。

使用训练数据构建算法时我要计算的错误是什么？

最常用的误差函数是平方误差函数，在BackPropogation算法中也有使用，用于优化误差函数。

我需要多少层，每层意味着什么？

层增加了复杂性，并有助于在数据中找到微妙的模式。但是，您必须确保网络不会过拟合。所以，只要层数没有过度拟合模型，你就可以开始了。为了确保这一点，您需要知道什么是cross-validation。

其它你可能感兴趣的问题

上一篇如何衡量预测的信心？下一篇用朴素贝叶斯预测新数据