我对数据挖掘有点陌生,我正在研究用于电影评分预测的分类模型。
我从 IMDB 收集了数据集,我计划为我的模型使用决策树和最近邻方法。我想知道哪个免费提供的数据挖掘工具可以提供我需要的功能。
我对数据挖掘有点陌生,我正在研究用于电影评分预测的分类模型。
我从 IMDB 收集了数据集,我计划为我的模型使用决策树和最近邻方法。我想知道哪个免费提供的数据挖掘工具可以提供我需要的功能。
海因,
有很多具有可用功能的工具和库。
选择哪一个取决于您是想在工作中使用 gui 还是想将其嵌入到其他程序中。
独立的数据挖掘工具(有像 WEKA 这样的带有 Java 接口的其他工具):
基于文本:
库:
如果您足够了解一种编程语言,我会使用该语言的库或尝试 R。如果没有,您可以尝试使用 gui 的工具之一。
R中的树示例:
# we are using the iris dataset
data(iris)
# for our tree based model we use the rpart package
# to download it type install.packages("rpart")
library(rpart)
# Building the tree
fit <- rpart(Species ~ Petal.Length + Petal.Width, method="class", data=iris)
# Plot the tree
plot(fit)
text(fit)
正如建议的那样,使用 R 进行分析需要您自己编写代码,但您会找到一个适用于大多数分类任务的包,它可以开箱即用。可以在此处找到概述机器学习任务视图
要开始使用 RapidMinder,您应该看看 Youtube。有一些截屏视频,甚至是决策树。
Weka是一个免费的开源机器学习工具套件。如果您愿意,它们有一个 GUI 和一个 API 可以从您的 Java 代码中调用。
他们有许多分类算法,包括几种决策树算法。这些在 UI 中可用。最近的邻居有点棘手,看来您必须直接使用 API。
我认为Rapid Miner可能支持这种类型的东西,但我以前没有将它用于这种目的。
您也可以考虑R,但这可能需要让您的手更脏一些。
请注意,Netflix 在电影分级分类方面做了大量工作。几年前,他们向该组提供了100 万美元的奖金,以最大程度地提高他们的分类。您可能有兴趣阅读各种团队如何解决该问题。
可能是... WEKA? http://www.cs.waikato.ac.nz/ml/weka/