密集矩阵在统计学中有什么用途?

机器算法验证 大数据 矩阵
2022-04-02 19:15:53

好的,我不是统计学家(甚至没有接近)。我是一名高性能计算研究人员,我想要一些大型(大于 5000x5000)密集矩阵的测试用例。我曾在这里和其他几个地方问过,但从未得到统计学家的任何答复。我非常有兴趣在统计问题上尝试我的代码。您能否建议一个统计应用程序,其中需要为 x 求解,其中是密集且正方形的。Ax=bA

如果您也可以给我 A 没有结构即没有对称性、没有正定性等的应用程序,我将不胜感激。但这并不完全必要。具有良好应用的大型密集矩阵就足够了。

如果这个问题显得开放或含糊,我很抱歉,但我想不出一个更好的地方来问这个问题。

3个回答

您可能会发现Java Matrix Benchmark很有用。矩阵市场似乎没有你想要的,尽管它有很多例子

这里很大,虽然我不确定它是否足够密集。来自http://www.grouplens.org/node/73

  • MovieLens 100k - 包含来自 1000 名用户对 1700 部电影的 100,000 条评分。
  • MovieLens 1M - 由 6000 名用户对 4000 部电影的 100 万个评分组成。
  • MovieLens 10M - 由 1000 万个评分和 100,000 个标签应用程序组成,由 72,000 名用户应用于 10,000 部电影。

我不确定您正在寻找的应用程序在统计环境中是否有意义。您感兴趣的是线性回归分析。个测量的矩阵,其中每一行是变量的单个测量。我想到了两个可能1) DNA 微阵列分析和 2) 功能性 MRI 数据分析。无论如何,很难找到其中包含人(测量值)的数据集。ARm×nmnn>5000m>5000

但是,您对的要求在原则上限制了这种分析的意义。毕竟所有统计数据都是关于从噪声数据中推断出一些潜在的,比如说,真相,即你的问题隐含的统计模型是 其中是单个测量值,是你尝试的假设参数用你的分析找到,是某种形式的噪音。现在你说需要是可逆的,即必须是满秩的,即测量不能重复,即你只有一个单一的、噪声破坏的观察每个m=n

b=aTx+ϵ
axϵAaba并且尝试估计参数是一种非常糟糕的情况,尤其是在参数数量超过(或等于)测量次数的情况下。然后你的模型简单地拟合数据中的噪声,这被称为过度拟合。x