如果这个问题不是合适的格式,我们深表歉意。我是数据科学的新手。
我有一个包含约 1600 万条记录的物种观察数据数据库。每条记录包括:
- 纬度
- 经度
- 日期
- 时间
- 观察到的物种(即物种单数,而不是复数)
此数据已由专家手动审查,因此记录中的每个物种都有一个附加字段,用于将观察分类为有效或无效(或更准确地说,可能正确/可能不正确)
我正在探索在这些数据上训练神经网络以自动将新记录分类为有效或无效的想法(“无效”数据将被标记为人工专家审查。)
绝大多数记录都被归类为“有效”,所以我担心没有太多信息可以训练模型了解什么是“无效”。
然而,一个记录是否有效的一个很好的预测指标是,非正式地说,“附近是否有该物种的其他记录(空间和/或时间)”
我不确定从哪里开始为这个问题制定神经网络。例如
输入:纬度、经度、日期、时间、物种
输出:有效性
或者
输入:纬度、经度、日期、时间
输出:每个已知物种的一个输出表明有效性
我喜欢第二个模型的想法,因为我可以输入时间和位置,然后列出可能的物种。
所以我的具体问题是:
这听起来像是适合神经网络的应用程序吗?
如果是这样,我可以从哪里开始为我的问题制定模型?或者有人可以为我指出一个好的方向,以了解有关此主题的更多信息。