我没有数据挖掘或大数据方面的行业经验,所以很想听听你分享一些经验。
人们真的会在一个非常大的数据集上运行 k-means、PAM、CLARA 等吗?或者他们只是随机从中挑选出一个样本?如果他们只是对数据集进行抽样,如果数据集不是正态分布的,结果是否可靠?
在运行这些算法的实际情况下,我们能否知道在收敛之前通常需要多少次迭代?还是迭代次数总是随着数据大小而增长?
我问这个是因为我正在考虑开发一种方法来在收敛之前终止迭代算法,但结果仍然可以接受。如果迭代次数超过 1,000 次,我认为值得尝试,这样我们可以节省一些计算成本和时间。你怎么看?