我有几个包含数千个变量的数据集。这些不同的数据集对于同一事物具有不同的变量。有没有办法自动/半自动检查兼容变量并使它们保持一致?
如果有这样的事情,那将节省我几个月的繁琐工作。数据以 SPSS 格式存储。
我有几个包含数千个变量的数据集。这些不同的数据集对于同一事物具有不同的变量。有没有办法自动/半自动检查兼容变量并使它们保持一致?
如果有这样的事情,那将节省我几个月的繁琐工作。数据以 SPSS 格式存储。
如果您只是在谈论使所有数据集的变量名称保持一致以使它们更易于使用,那么您正在处理所谓的“数据集成”。
我对SPSS不熟悉。基本 SAS 语言具有数据管理功能/选项,可用于执行特定于您的数据的技巧,这些技巧可以半自动化此类过程。SAS 还可以非常轻松地从 SPSS 数据集中导入数据。
这种事情也有专门的软件。首先想到的是 SAP 和 Informatica 制造的所谓数据集成工具。我不确定 IBM 是否有类似的东西。根据您的项目预算,可能值得您花时间探索这条路线。