我想分析内核方法的有效性和效率,对于以下每种情况,我需要在二维空间中使用 3 个不同的数据集:
- BAD_kmeans:kmeans 聚类算法不能很好执行的数据集。
- BAD_pca:主成分分析 (PCA) 降维方法在将原始点投影到一维空间(即第一个特征向量)时表现不佳的数据集。
- BAD_svm:使用两类点(正和负)的线性支持向量机(SVM)监督分类方法表现不佳的数据集。
我可以在 R 中使用哪些包来为上述每种情况生成随机 2d 数据集?R 中的示例脚本将有助于理解
我想分析内核方法的有效性和效率,对于以下每种情况,我需要在二维空间中使用 3 个不同的数据集:
我可以在 R 中使用哪些包来为上述每种情况生成随机 2d 数据集?R 中的示例脚本将有助于理解
您提到的算法都不适用于具有均匀分布的数据。
size <- 20 #length of random number vectors
set.seed(1)
x <- runif(size) # generate samples from uniform distribution (0.0, 1.0)
y <-runif(size)
df <-data.frame(x,y)
# other distributions: rpois, rmvnorm, rnbinom, rbinom, rbeta, rchisq, rexp, rgamma, rlogis, rstab, rt, rgeom, rhyper, rwilcox, rweibull.
有关从分布生成随机样本的教程,请参阅此页面。
对于这些方法“难”的特定随机数据集(呃线性不可分的n类 XOR 模式),请参阅此博客文章(包括 R 代码):http ://tjo-en.hatenablog.com/entry /2014/01/06/234155。