数据挖掘 - R脚本在二维空间中生成随机数据集 - 吾爱随笔录

R脚本在二维空间中生成随机数据集

数据挖掘机器学习分类 r 聚类

2022-02-06 17:52:47

我想分析内核方法的有效性和效率，对于以下每种情况，我需要在二维空间中使用 3 个不同的数据集：

BAD_kmeans：kmeans 聚类算法不能很好执行的数据集。
BAD_pca：主成分分析 (PCA) 降维方法在将原始点投影到一维空间（即第一个特征向量）时表现不佳的数据集。
BAD_svm：使用两类点（正和负）的线性支持向量机（SVM）监督分类方法表现不佳的数据集。

我可以在 R 中使用哪些包来为上述每种情况生成随机 2d 数据集？R 中的示例脚本将有助于理解

1个回答

您提到的算法都不适用于具有均匀分布的数据。

size <- 20             #length of random number vectors
set.seed(1) 
x <- runif(size)          # generate samples from uniform distribution (0.0, 1.0)
y <-runif(size) 
df <-data.frame(x,y)

# other distributions: rpois, rmvnorm, rnbinom, rbinom, rbeta, rchisq, rexp, rgamma, rlogis, rstab, rt, rgeom, rhyper, rwilcox, rweibull.

有关从分布生成随机样本的教程，请参阅此页面。

对于这些方法“难”的特定随机数据集（呃线性不可分的n类 XOR 模式），请参阅此博客文章（包括 R 代码）：http ://tjo-en.hatenablog.com/entry /2014/01/06/234155。

其它你可能感兴趣的问题

上一篇关于 Octave 数据大小限制的说明下一篇麻烦代表一个问题