我有多个数据集,功能略有不同。我可以使用哪些工具来使其成为同质数据集?
数据集1:
featureA,featureB,featureC
1,7,3
4,8,4
数据集2:
featureA,featureC,featureD,featureE
3,4,5,6
9,8,4,6
同构数据集
featureA,featureB,featureC,featureD,featureE
1,7,3,,
4,8,4,,
3,,4,5,6
9,,8,4,6
我有多个数据集,功能略有不同。我可以使用哪些工具来使其成为同质数据集?
数据集1:
featureA,featureB,featureC
1,7,3
4,8,4
数据集2:
featureA,featureC,featureD,featureE
3,4,5,6
9,8,4,6
同构数据集
featureA,featureB,featureC,featureD,featureE
1,7,3,,
4,8,4,,
3,,4,5,6
9,,8,4,6
你可以使用R来做到这一点。
smartbind 功能是以您要求的方式组合数据集的完美方式:
library(gtools)
d1<-as.data.frame(rbind(c(1,7,3),c(4,8,4))))
names(d1)<-c("featureA","featureB","featureC")
d2<-as.data.frame(rbind(c(3,4,5,6),c(9,8,4,6)))
names(d2)<-c("featureA","featureC","featureD","featureE")
d3<-smartbind(d1,d2)
您也可以使用 Python 来执行此操作。如果您熟悉使用Pandas数据框:
import pandas as pd
d1 = pd.DataFrame({'A':[1,4], 'B':[7,8], 'C':[3,4]})
d2 = pd.DataFrame({'A':[3,4], 'C':[4,8], 'D':[5,4], 'E':[6,6]})
d1.append(d2)
这将输出您要查找的内容,但空单元格中将包含 NaN(不是数字)。