我有一个包含 20 多个特征的数据集,我应用了 PCA:
M.fit_transform(all_data)
variance = M.explained_variance_ratio_
var = np.cumsum(np.round(M.explained_variance_ratio_, decimals=3)*100)
plt.ylabel('% Variance Explained')
plt.xlabel('# of Features')
plt.title('PCA Analysis')
plt.ylim(30,102.5)
plt.plot(var, marker="s")
plt.show()
打印var
变量,我得到
array([ 89., 100., 100., 100., 100., 100., 100., 100., 100., 100.])
我知道这告诉我们差异是由 2 个特征解释的。
所以我再次计算了它,现在是 2 个组件:
from sklearn.decomposition import PCA
M = PCA(n_components = 2)
X = M.fit_transform(all_data)
plt.scatter(X[:,0],X[:,1])
这给出了一个“随机的情节”。我了解数据在 PCA 过程中发生了更改。
我可以用这些信息做什么?这将如何帮助我理解数据?
它本身有用吗?作为其他方法的制备方法有用吗?我可以尝试哪些?