假设 A 的可能值为 ON 或 OFF。
假设我将其表示为: if A ON then feature f=1 else f=0
或者,假设我用 2 个特征来表示它,其中:
- 如果 A 为 ON,则 f1=1 且 f2=0
- 如果 A 关闭,则 f1=0 且 f2=1
这种表示如何影响神经网络?
假设 A 的可能值为 ON 或 OFF。
假设我将其表示为: if A ON then feature f=1 else f=0
或者,假设我用 2 个特征来表示它,其中:
- 如果 A 为 ON,则 f1=1 且 f2=0
- 如果 A 关闭,则 f1=0 且 f2=1
这种表示如何影响神经网络?
影响会很小
大多数人会给出的答案是它不会产生任何影响,但是再添加一个特征会降低记录与特征的比率,因此会稍微增加偏差,从而使您的模型稍微不那么准确。当然,除非您的模型过度拟合,在这种情况下,它会使您的模型稍微更准确(优秀的数据科学家永远不会这样做,因为他们了解交叉验证的重要性 :-)。
如果您对数据进行归一化,然后尝试进行某种降维,您的算法将立即消除您添加的特征,因为它与第一个特征完全负(线性)相关。 在这种情况下,它将不起作用。
还请考虑以下事项:
当有人问一个非常基本的数据科学问题时,我总是看到很大的危险信号neural network。神经网络非常强大,在媒体和 Kaggle 上受到了极大的关注,但它们需要更多的数据来训练,难以配置,并且需要更多的计算能力。如果您刚刚开始,我建议在深入研究人工神经网络之前先了解线性回归、逻辑回归、聚类、SVM、决策树、随机森林和朴素贝叶斯的基础。只是一些思考的食物。
希望这可以帮助!