数据挖掘 - 最大熵建模 - 似然方程 - 吾爱随笔录

最大熵建模 - 似然方程

数据挖掘机器学习 nlp 统计数据可能性

2022-03-05 16:05:09

我试图理解最大熵建模，我遇到了经验分布的对数似然方程，我不太理解，最终结果也等于我们在尝试使用约束最大化熵时得到的对偶函数拉格朗日乘数

L_{\tilde{p}} (p) \equiv l o g \prod_{x, y} p (y | x)^{\tilde{p} (x, y)} = \sum_{x, y} \tilde{p} (x, y) \log p (y | x)

$L_\widetilde{p}(p) \equiv log \prod\limits_{x,y}p(y|x)^{\widetilde{p}(x,y)} = \sum\limits_{x,y}\widetilde{p}(x,y)\log{p(y|x)}$

在哪里，

$y$ 是随机过程产生的结果
$x$ 是影响结果 $y$
$L_\widetilde{p}(p)$ 是对数似然
$\widetilde{p}$ 是训练数据的经验分布
$p(y|x)$ 是模型
$\widetilde{p}(x,y) \equiv \frac{1}{N} \times \text{number of times that } (x,y) \text{ occurs in the sample}$

有人可以解释一下在上面提到的对数似然方程中是如何提高到相反，不应该将在样本中出现的次数的幂。 $p(y|x)$ $\widetilde{p}(x,y)$ $p(x|y)$ $(x,y)$

我浏览了有关 max entropy 的参考教程。

2个回答

令有一个离散的连接概率分布其中是样本中的一个向量，而是一个参数从参数空间。 theta的函数时，我们将其称为似然函数。根据 ML 原则，我们必须在某些训练集上最大化似然函数。假设样本是独立同分布的，那么 ML 通过以下方式最大化： $X_1, ..., X_n$ $P(x \mid \theta)$ $\vec{x} = (x_1, ... , x_n)$ $\theta$ $P(x \mid \theta)$ $\theta$

$theta^{*} = argmax \sum_{i=1}^{m} log(P(x_i \mid \theta))$
以上部分应该复习。

令为集合并令为绘制的概率。最后让是抽奖的序列，并且是基于概率 P 的独立同分布。是抽奖的度量，即. $\chi$ $\{a_1, ... , a_n\}$ $P(a \mid \phi)$ $a_i$ $x_1, ... , x_n$ $f(a)$ $f(a) = | \{i : x_i = a\} |$

经验分布定义为。 $\hat{P}(a) = \frac{f(a)}{\sum_{a \in \chi}f(\alpha)} = \frac{f(a)}{m}$

联合概率 $P(x_1, .. x_m | \theta) = \prod_{i=1}^{m}p(x_{i} | \phi)^{f(a)}$

正如您在此处看到的训练数据，您的教程和我已经定义了我们的经验分布类似物并获得了相同的结果。

TLDR，这只是一个符号问题。

如果可以的话，我只会添加评论...

你对 p(y|x) 的解释是什么？通常的表达是“给定x的y的概率”，即概率分布中的自变量对应的因变量。这是您要最大化的函数，而不是反函数。

作为旁注，有两种方法可以使用右侧方程的熵形式。这可以作为正则化内核添加到成本函数中，具有调制系数；或者它可以是成本函数中的主要项——要最大化的熵——具有来自拉格朗日乘数引入的物理系统的约束。

其它你可能感兴趣的问题

上一篇如何确定我的数据集中的污染值（异常值的比例）？下一篇运行 RGFClassifier 时出错