我正在执行一系列随机投影,即将输入矩阵投影到随机生成的正交基(维数低得多)上。投影只是一个矩阵乘法,如, 在哪里是由几个相互正交的单位长度列向量组成的基。
我得出的结论是,不需要在每次投影之前生成新的基础,因为对其行的简单排列应该足以保持整个过程的随机性。如果这是真的,那么这样做在计算复杂性方面将非常有利可图,因为行置换也保持了基的正交性。
问题是我是一名程序员而不是数学家,所以我不确定这些基础上的投影是否确实是随机的,因此彼此独立,或者它们在某种程度上相似并因此受到限制。我的想法是对还是错,为什么?
编辑:
矩阵由组成二进制值的行向量 (或者),其中向量维度接近介于和.
重复随机投影的过程旨在找到可聚类的投影,或者至少避免最坏的情况。目前,聚类性被定义为方差。
为了最小化行排列的复杂性,我只是旋转行索引,所以原始基础根本没有改变。
最终目标是降低输入向量的维数,然后使用一些基于距离或密度的算法将它们聚集在这个低维空间中。
上面的反例清楚地表明了生成对某些排列不敏感的基的潜在风险——交换第 1 行和第 2 行,结果与改变基向量的顺序相同,根本不会改变投影。
问题 1:生成具有这种固有缺陷的随机基的概率是多少。
我看到行排列以某种方式反映了基础,但我不知道哪些基础不能很好地反映。我不期望确切的数字,因为它需要对“有”、“缺陷”和“好”等词进行精确定义。非常欢迎任何有助于更专业地表达问题的帮助。
问题2:它是唯一可以减少整个过程随机性的缺陷吗?