作为数据科学的新手,我认为我是在正确的轨道上,直到在绘制之后似乎有些不对劲。我的数据集的简化结构如下:
- FIPS(人口普查区 ID)
- 各县每 10 万人的药物相关死亡率(因变量)
- 人口普查区的人口统计
- 人口普查区的人口 B 计数
- ...
换句话说,由于药物相关的死亡数据只能按县获得,我的数据由一个汇总的因变量和许多其他细粒度的自变量组成。我的问题是:
有更好的选择来准备我的数据吗?我能想到的一种选择是将人口普查区数据汇总(或平均)到县级,以便建立一对一的关系,而不是一对多的关系。但是,我认为这种方法可能会失去在个别人口普查区级别确定关键人口指标的好处。
我应该像我的因变量一样将人口统计数据从计数转换/标准化为每 100K 吗?
提前感谢您分享您的智慧!