二元分类问题

数据挖掘 预测建模 预言
2022-03-01 13:14:29

我是 ML 新手,我有一个 Vinyls 音乐销售信息的数据集,该数据集包含:

  • 作者
  • 专辑名称
  • 类型
  • 国家
  • 产生的收入
  • 平均收入产生

我的目标是创建一个模型,我可以帮助我了解哪些音乐可以产生大量收入(布尔值)。我创建了一个字段 AverageRevenueGenerated,它是为所有艺术家生成的所有收入的平均值。我正在寻找一种工具,可以帮助我根据上面的输入信号关联或产生见解。这种感冒是自动的或特定的指南,例如,如果:

  • 英国 + 工业
  • IT + 歌剧
  • 愚蠢的朋克 + ​​电子

将是潜在的高收入。

我发现房价示例:https ://yalantis.com/blog/predictive-algorithm-for-house-price/是同一类型的问题吗?我正在寻找哪些输入信号可能是最高的收入。任何见解或指示都会有所帮助。

1个回答

是的,您可以使用您拥有的功能运行回归,并预测收入,但您需要更多功能来运行有效的分析。也许为该类型添加功能以及音乐是否流行。要将其转换为二元分类问题,您必须确定一个截止值并将高于该值的所有内容标记为 1,低于其标记为 0,中位数可能是一个很好的截止值,但仅取决于您的数据。这整个问题将归结为特征工程,在我看来这是最难做的事情之一。此外,您将需要大量数据。无论歌曲是否出现在广告牌上,您都可以创建功能。看,试着把它想象成一个人,并将这些特征添加到你的模型中。作为一个人,我认为会产生更多收入的音乐将是:

  • 艺术家的知名度和声誉。

  • 这些天来这种类型是否流行。

  • 这首歌有没有获奖。

像这样的东西。所以你必须找到量化这些东西的特征。尝试为此类问题找到一些开源数据集并从那里开始工作。