我正在根据他们的推特流分析人们。我们正在使用用户的“词袋”模型,这基本上相当于计算每个词在个人推特流中出现的频率(然后将其用作更规范化的“他们将使用给定词的概率”的代理)特定长度的文本)。
由于管道的进一步限制,我们无法保留所有用户使用所有单词的完整数据,因此我们试图在分析中找到最“象征性有效”的单词来保留。也就是说,我们试图保留维度的子集,知道它们的值将允许假设的预言家最准确地模拟所有单词的概率(包括我们在分析中遗漏的任何单词)。
因此,主成分分析 (PCA) 类型的方法似乎是合适的第一步。(现在很高兴地忽略了 PCA 也会将我们“旋转”到不对应于任何特定单词的维度的事实)。
但我正在阅读“Zipf 分布 .. 表征自然语言(如英语)中单词的使用”,据我所知,PCA 分析对数据正态分布做出了各种假设。因此,我想知道 PCA 分析的基本假设是否会与现实“相距甚远”而成为一个真正的问题。也就是说,PCA 是否依赖于“接近”高斯正态的数据才能正常工作?
如果这是我怀疑的问题,还有其他建议吗?也就是说,其他一些值得研究的方法在某种程度上与 PCA“等效”,但更适合 Zipf 或幂律分布式数据?
请注意,我是一名程序员,而不是统计学家,如果我在上面弄乱了我的术语,我深表歉意。(当然欢迎更正!)