我有一个数据集,其中包含带有定量和定性变量的保险索赔,但 PCA 拒绝转换或使用“字符串”类型变量。
这是我使用的代码:
from sklearn.decomposition import PCA
claims=pd.read_csv('./insurance_claims.csv',sep=',',header=0)
X=claims.ix[:,1:].values
pca=PCA(n_components=12)
pca.fit(X)
我正在尝试降低维度以对数据集进行聚类并检测欺诈性索赔。如果对于异构数据有任何替代 PCA 的方法,我们将不胜感激。