我正在按照这里的线性判别分析教程进行降维。在完成教程(也做了 PCA 部分)之后,我在适用的情况下使用 sklearn 模块缩短了代码,并在 Iris 数据集(相同的代码,相同的结果)、合成数据集(使用make_classification
)和 sklearn-数字数据集。
但是,然后我在包含两类光谱记录的完全不同(不幸的是非公开)数据集上尝试了完全相同的代码。LDA 在特征向量验证部分崩溃,其中 应该几乎等于 (和 是特征值和 对应的特征向量; 和 是类内/类间散布矩阵)。第一个错误的向量似乎在随机位置,这意味着每次运行都是导致此错误的不同向量。
我怀疑它与计算期间的舍入有关,因为我得到了复杂的特征向量。对于 PCA,我只是丢弃了复杂的部分(我想我在这个论坛的某个地方读过它),但这种方法似乎不适用于 LDA。有没有人遇到过类似的问题或知道出了什么问题?
以下是我的分析代码,与教程中的大致相同。我正在使用手动方法,因为我对需要多少线性判别式来描述我的数据感兴趣。(我不确定如何使用 sklearn 的 LDA 来做到这一点。)
def LDAnalysis_manual(X, y):
n_features = X.shape[1]
n_classes = len(np.unique(y))
print("Mean vectors...")
mean_vectors = []
for cl in range(n_classes):
mean_vectors.append(np.mean(X[y == cl], axis=0))
# print("Mean vector class {}: {}".format(cl, mean_vectors[cl - 1]))
print("In-class scatter matrix...")
S_W = np.zeros((n_features, n_features))
for cl, mv in zip(range(1, n_classes), mean_vectors):
class_sc_mat = np.zeros((n_features, n_features)) # each class' scatter matrix
for row in X[y == cl]:
row, mv = row.reshape(n_features, 1), mv.reshape(n_features, 1) # column vectors
class_sc_mat += (row - mv).dot((row - mv).T)
S_W += class_sc_mat # sum class scatter matrices
overall_mean = np.mean(X, axis=0)
print("Between-class scatter matrix...")
S_B = np.zeros((n_features, n_features))
for i, mean_vec in enumerate(mean_vectors):
n = X[y == i + 1].shape[0]
mean_vec = mean_vec.reshape(n_features, 1) # make column vector
overall_mean = overall_mean.reshape(n_features, 1)
S_B += n * (mean_vec - overall_mean).dot((mean_vec - overall_mean).T)
eig_vals, eig_vecs = np.linalg.eig(np.linalg.inv(S_W).dot(S_B))
print("Eigenvector test")
for i in range(len(eig_vals)):
print("\r{:3}".format(i), end=" ")
sys.stdout.flush()
eigv = eig_vecs[:, i].reshape(n_features, 1)
np.testing.assert_array_almost_equal(np.linalg.inv(S_W).dot(S_B).dot(eigv).real,
(eig_vals[i] * eigv).real,
decimal=6, err_msg='', verbose=True)
__log.debug("\nAll values ok.")
eig_pairs = [(np.abs(eig_vals[i]), eig_vecs[:, i]) for i in
range(len(eig_vals))] # make list of value & vector tuples
eig_pairs = sorted(eig_pairs, key=lambda k: k[0], reverse=True) # Sort tuple-list from high to low
__log.info("\nEigenvalues (decending):")
for i in eig_pairs:
__log.info(i[0])
tot = sum(eig_vals)
var_exp = [(i / tot) for i in sorted(eig_vals, reverse=True)]
cum_var_exp = np.cumsum(var_exp)
cum_var_exp = cum_var_exp.real
plot(len(var_exp), var_exp, cum_var_exp)
idx_98 = next(idx for idx, val in enumerate(cum_var_exp) if val > .98)
return idx_98 + 1