机器算法验证 - 核矩阵归一化 - 吾爱随笔录

最初发布在stats.SE但从未得到答案，所以在这里重新发布。

对内核矩阵进行归一化是不是一个坏主意？我的意思是Shawe-Taylor＆Cristianini的“模式分析的内核方法”（matlab notation）第113页描述的方法：

% original kernel matrix stored in variable K
% output uses the same variable K
% D is a diagonal matrix storing the inverse of the norms
D = diag(1./sqrt(diag(K)));
K = D * K * D;

我特别考虑文本挖掘，其中内核由矩阵（即）形成。我想规范化的原因是我正在考虑组合几个这样的内核（例如来自二元组、三元组等），但是当我这样做时会得到一些非常奇怪的结果。 $tf-idf$ $T$ $K = T T'$

在没有归一化的情况下对内核求和会导致其中一个占主导地位。（我可以使用加权和 - 例如使用，其中是 Frobenius 范数，但这似乎有点 hack - 这是无监督学习）。 $1/||K||_F$ $||\cdot||_F$