合并具有不同变量编码的多个数据集

数据挖掘 数据集 数据清理
2021-10-01 07:50:27

我有几个包含数千个变量的数据集。这些不同的数据集对于同一事物具有不同的变量。有没有办法自动/半自动检查兼容变量并使它们保持一致?

如果有这样的事情,那将节省我几个月的繁琐工作。数据以 SPSS 格式存储。

2个回答

我不知道这方面的自动化工具,但作为建议,您可以考虑使用特征选择或特定数据集中所有变量与所有其他变量的相关性。

这取决于您稍后想要进行分析的方向,但第二种方法将使您能够看到高度相关的变量,因此可能是检查它们是否重复的好候选?

此外,不确定您是否知道,但有一些 R 包(memisc特别受欢迎)使您能够直接读取 SPSS 文件,然后直接处理数据。

抱歉,虽然不会为您节省几个月的工作......但可能会为您节省几天......

如果您只是在谈论使所有数据集的变量名称保持一致以使它们更易于使用,那么您正在处理所谓的“数据集成”。

我对SPSS不熟悉。基本 SAS 语言具有数据管理功能/选项,可用于执行特定于您的数据的技巧,这些技巧可以半自动化此类过程。SAS 还可以非常轻松地从 SPSS 数据集中导入数据。

这种事情也有专门的软件。首先想到的是 SAP 和 Informatica 制造的所谓数据集成工具。我不确定 IBM 是否有类似的东西。根据您的项目预算,可能值得您花时间探索这条路线。