首先让我说,我对机器学习很陌生,数学不太好。我了解 TF-IDF 的作用,但在我正在阅读的书中还指出了以下内容(它正在讨论 scikit-learn 如何做事):
两个类 [TfidfTransformer 和 TfidfVectorizer] 在计算 tf-idf 表示之后也应用 L2 归一化;换句话说,他们重新缩放每个文档的表示以具有欧几里德范数 1。以这种方式重新缩放意味着文档的长度(字数)不会改变向量化的表示。
这就是关于这个主题的全部内容。我认为这意味着什么,如果我错了,请告诉我,是我们缩放值,以便如果它们全部平方和求和,则值为 1(我从http://kawahara.ca获取了这个定义/how-to-normalize-vectors-to-unit-norm-in-python/)。
因此,这个想法是特征值彼此成比例。不过,我不完全确定这对模型有什么帮助。如果某些示例的“打开功能”总数不高于其他示例,它是否有助于整个分类器学习?
另外,这是一个基本问题:L2 归一化与 L2 正则化有什么关系吗?也许只是它们都涉及平方和求和项?
无论您能分享什么见解,都将不胜感激!