结合具有不同特征的数据集

数据挖掘 机器学习 数据集
2022-02-18 13:25:10

我有多个数据集,功能略有不同。我可以使用哪些工具来使其成为同质数据集?

数据集1:

featureA,featureB,featureC
1,7,3
4,8,4

数据集2:

featureA,featureC,featureD,featureE
3,4,5,6
9,8,4,6

同构数据集

featureA,featureB,featureC,featureD,featureE
1,7,3,,
4,8,4,,
3,,4,5,6
9,,8,4,6
2个回答

你可以使用R来做到这一点。

smartbind 功能是以您要求的方式组合数据集的完美方式:

library(gtools)

d1<-as.data.frame(rbind(c(1,7,3),c(4,8,4))))
names(d1)<-c("featureA","featureB","featureC")

d2<-as.data.frame(rbind(c(3,4,5,6),c(9,8,4,6)))
names(d2)<-c("featureA","featureC","featureD","featureE")

d3<-smartbind(d1,d2)

您也可以使用 Python 来执行此操作。如果您熟悉使用Pandas数据框:

import pandas as pd

d1 = pd.DataFrame({'A':[1,4], 'B':[7,8], 'C':[3,4]})
d2 = pd.DataFrame({'A':[3,4], 'C':[4,8], 'D':[5,4], 'E':[6,6]})

d1.append(d2)

这将输出您要查找的内容,但空单元格中将包含 NaN(不是数字)。