数据挖掘 - 每年有一个 1 值的分类器 - 吾爱随笔录

每年有一个 1 值的分类器

数据挖掘分类

2022-03-07 06:15:25

假设我想找出赢得奥斯卡最佳电影类别的概率。我知道以下规则：

每年只有一名获胜者。
从逻辑上讲，每年的预测概率之和应为 1。

我的分类器中可以有一个年份特征，但这并不意味着强制执行 1 和 2。如果我使用像逻辑回归这样的简单分类器，我也看不出将年份作为一个特征会有什么帮助。

我的问题是：

有没有办法在模型中强制执行这些规则？有关系吗？当我尝试预测给定年份时，我是否应该只使用没有这些规则的模型并将概率标准化为 1？

1个回答

正如@Emre 在评论中指出的那样，您将需要使用softmax 函数。在获得每部电影的一组分数后，该函数会将分数压缩到 [0,1] 范围内，并且分数将加起来为 1。

这是一个可能的过程：

为每个图像生成一个特征集
在您的特征集上训练模型以输出电影的分数。分数是任意域中的数字。
对所有候选电影重复步骤 2 以创建得分向量。
将分数向量输入到 softmax 函数中，以将分数压缩到域 [0,1] 中并使它们相加为 1

作为参考，定义了 softmax 函数：

$\sigma(z_i) = \frac{e^{z_i}}{\displaystyle\sum^N_{n=1}e^{z_n}}$

还有一个例子：

我们的功能集将包括以下内容：评论家/观众评分、收入、成本、售出总票数等。

假设您拥有 Oscars 的历史数据，其中包括我们将用于基本事实指标的特征集和分数。你定义分数。例如，如果一部电影甚至没有获得奥斯卡奖提名，它的得分可能为零，而一部获得奥斯卡奖的电影可能得分为 1。一部获得提名但没有获得很多选票的电影可能得分0.50。

您根据历史数据训练模型，这样，给定电影的特征集，它将输出一个分数，类似于您的训练集。

现在您正在考虑预测三部电影：复仇者联盟无限战争、死侍 2 和毒液。

您获得了他们的功能集（您用于培训的相同类别：评论家/观众评分、收入等）

然后通过模型传递每个特征集并获取分数向量：

\begin{array}{lc} M o v i e & S c o r e \\ A v e n g e r s I n f i n i t y W a r & 0.98 \\ D e a d p o o l 2 & 0.82 \\ V e n o m & 0.24 \end{array}

$\begin{array}{|l|c|} \hline Movie & Score\\ \hline Avengers\ Infinity\ War & 0.98\\ Deadpool\ 2 & 0.82\\ Venom & 0.24\\ \hline \end{array}$

我们可以使用 softmax 函数将分数结果解释为概率：

给出函数的分母：

$\displaystyle\sum^N_{n=1} e^{z_n} = e^{0.98} + e^{0.82} + e^{0.24} \ \ \ where: z=\{0.98,0.82,0.24\}$

我们计算给定分数的softmax $x$ 像这样：

$\Large\frac{e^x}{e^{0.98} + e^{0.82} + e^{0.24}}$

因此，softmax 分数为：

\begin{array}{lcc} M o v i e & S c o r e & S o f t m a x \\ A v e n g e r s I n f i n i t y W a r & 0.98 & 0.42932 \\ D e a d p o o l 2 & 0.82 & 0.36584 \\ V e n o m & 0.24 & 0.20484 \end{array}

$\begin{array}{|l|c|c|} \hline Movie & Score & Softmax\\ \hline Avengers\ Infinity\ War & 0.98 & 0.42932\\ Deadpool\ 2 & 0.82 & 0.36584\\ Venom & 0.24 & 0.20484\\ \hline \end{array}$

我们可以看到：

$0.42932 + 0.36584 + 0.20484 = 1$

其它你可能感兴趣的问题

上一篇矩阵分解改进下一篇高斯分布与经验分布之间的 Wasserstein 距离