我有一个感兴趣的位置 2 个月的空气污染测量数据。我对使用机器学习算法来预测同一地点的污染非常感兴趣(比如说,接下来的两个月)。
由于空气污染是一个地理问题,使用机器学习在单个位置应用和预测污染是否有意义?有人可以阐明这一点的利弊吗?
我有一个感兴趣的位置 2 个月的空气污染测量数据。我对使用机器学习算法来预测同一地点的污染非常感兴趣(比如说,接下来的两个月)。
由于空气污染是一个地理问题,使用机器学习在单个位置应用和预测污染是否有意义?有人可以阐明这一点的利弊吗?
业力不足以简单评论,所以我必须将其记录为答案。
是否有意义?当然!但请记住,如果您在单个位置训练您的模型,那么它只能真正可信地用于来自同一位置的未来数据。您的模型能否推广到其他位置?也许吧,但你的模型什么也没看到,所以你不能确定。同样的事情也适用于只有 2 个月的数据。您无法确定此模型是否准确,因为它对来自以前从未见过的一个月的评分数据进行评分。
如果您真的想解决此类问题并且只是没有数据 -此链接有一个您可能感兴趣的类似数据集。
恕我直言,只有 2 个月的数据,您将遇到的一个大问题是季节性:污染在很大程度上取决于温度和风况,因此为了准确预测污染水平,您至少需要一年的数据,最好是过去几年的数据. 我认为您无法仅凭两个月的训练数据提前两个月正确预测污染水平。
也许您可以尝试将问题扩大到更广泛的范围:使用包含多个城市和多年数据的数据集,然后您可以尝试使用代表当地条件(如密度、温度等)的特征来预测特定位置的污染水平。