如何聚类 n-gram?

数据挖掘 机器学习 nlp
2022-01-27 20:26:46

我只是想知道如何根据语义对 n-gram 进行聚类。就像通过利用分布假设将语义相似的 n-gram 聚类在一起,表明相似的词出现在相似的上下文中。

1个回答

分布式语义模型基于用表示其含义的单词来表示一个实例。通常,如果一个人对表示一个词的含义感兴趣wi那么代表它的意思的词是那些出现在它附近的词,例如在它之前/之后有一个 N 个词的窗口。

示例wi是窗口 +/- 2 的目标词:

w1,w2,...,wi3,wi2,wi1,wi,wi+1,wi+2,wi+3,...,wN

所以“意义”wi在这种情况下,将由上下文窗口中的四个单词表示:wi2,wi1,wi+1,wi+2. 通过收集出现的wi在文档中的任何地方,都可以获得一组可以以不同方式使用的上下文。例如,可以构建一个上下文向量a1,...a|V|超过词汇量V每个单元格在哪里ak包含频率wkV在目标词的上下文中。通过对不同的词应用相同的过程,每个词都可以用它的上下文向量来表示,然后可以对这些向量进行各种操作:相似度度量、聚类等。

通常基于单词语义的聚类是使用特定方法完成的,例如潜在语义分析

理论上,该方法可以应用于任何单元(例如 n-gram),但更复杂的单元需要更多的数据、更多的内存和更多的计算能力。