我有一个数据集,其中包括为城市内的房屋颁发的所有建筑许可证。我有一年前和今天的“快照”中的数据(可能还有其他一些,更旧的快照)。
数据中包括家庭年龄和有关家庭的其他属性。我希望做的是弄清楚哪些特征可以预测未来的许可证。为此,我打算将一年前的快照与现在的快照进行比较,看看哪些房屋最终获得了许可(例如,改造浴室),并确定预测这些的特征之间是否存在任何相关性。
我的问题如下:
- 我需要什么形式的数据才能做到这一点?假设我在不同的“列”中具有所有特征。其中大部分将是分类的或二元的(真/假)。日期显然是日期格式。我有能力在过去或当前数据中添加额外的标志,这些标志可能表明,例如,颁发了新的管道许可证。
- 什么分析最适合这个,以及对运行这个的工具/平台有什么建议?假设有数十万个条目可供分析。
谢谢。