我读了好几遍,哪些分箱有助于减少数据的噪音。但是我们如何才能发现我们的数据有噪音呢?如果我们的数据是干净的并且我们降低了数据的准确性怎么办?
有什么方法可以测量属性的噪声吗?我们什么时候应该做分箱?
我读了好几遍,哪些分箱有助于减少数据的噪音。但是我们如何才能发现我们的数据有噪音呢?如果我们的数据是干净的并且我们降低了数据的准确性怎么办?
有什么方法可以测量属性的噪声吗?我们什么时候应该做分箱?
您可以绘制数据点并查看数据集是否有许多异常值。在这种情况下,制作频率图和热图很有帮助。Binning 有助于删除较小的错误数据点。还有其他减少数据集中噪声的方法,例如应用 IQR。
如果你想减少噪音,只有当你有一个大数据集时,才在应用分箱后应用四分位间距。: https://www.wikihow.com/Find-the-IQR