电影评分预测的分类模型

机器算法验证 分类 大车
2022-03-23 22:22:42

我对数据挖掘有点陌生,我正在研究用于电影评分预测的分类模型。

我从 IMDB 收集了数据集,我计划为我的模型使用决策树和最近邻方法。我想知道哪个免费提供的数据挖掘工具可以提供我需要的功能。

3个回答

海因,

有很多具有可用功能的工具和库。

选择哪一个取决于您是想在工作中使用 gui 还是想将其嵌入到其他程序中。

独立的数据挖掘工具(有像 WEKA 这样的带有 Java 接口的其他工具):

  • 快速矿工
  • 橙子
  • R的拨浪鼓gui

基于文本:

  • GNU R

库:

  • 用于 Python 的 Scikit
  • Hadoop 上的 Mahout

如果您足够了解一种编程语言,我会使用该语言的库或尝试 R。如果没有,您可以尝试使用 gui 的工具之一。

R中的树示例:

# we are using the iris dataset
data(iris)

# for our tree based model we use the rpart package
# to download it type install.packages("rpart")
library(rpart)

# Building the tree
fit <- rpart(Species ~ Petal.Length + Petal.Width, method="class", data=iris)

# Plot the tree
plot(fit)
text(fit)

正如建议的那样,使用 R 进行分析需要您自己编写代码,但您会找到一个适用于大多数分类任务的包,它可以开箱即用。可以在此处找到概述机器学习任务视图

要开始使用 RapidMinder,您应该看看 Youtube。有一些截屏视频,甚至是决策树。

Weka是一个免费的开源机器学习工具套件。如果您愿意,它们有一个 GUI 和一个 API 可以从您的 Java 代码中调用。

他们有许多分类算法,包括几种决策树算法。这些在 UI 中可用。最近的邻居有点棘手,看来您必须直接使用 API

我认为Rapid Miner可能支持这种类型的东西,但我以前没有将它用于这种目的。

您也可以考虑R,但这可能需要让您的手更脏一些。

请注意,Netflix 在电影分级分类方面做了大量工作。几年前,他们向该组提供了100 万美元的奖金,以最大程度地提高他们的分类。您可能有兴趣阅读各种团队如何解决该问题。

可能是... WEKA? http://www.cs.waikato.ac.nz/ml/weka/