假设我正在尝试使用逻辑回归对一些数据进行分类。
在将求和数据传递给逻辑函数之前(在范围内归一化 ),必须优化权重以获得理想的结果。为了找到分类目的的最佳权重,必须找到相对最小化的误差函数,这可以是交叉熵。
据我所知,交叉熵通过属于两个概率分布的一组相同事件之间的位差来衡量两个概率分布之间的量化。
出于某种原因,交叉熵相当于负对数似然。两个概率分布之间的交叉熵损失函数定义和是:
再次根据我的知识,如果我们期望函数的二进制结果,最好对伯努利随机变量执行交叉熵损失计算。
根据定义概率质量函数伯努利分布,超过可能的结果是:
这意味着概率是如果和如果.
伯努利概率分布基于二元结果,因此对伯努利随机变量执行的交叉熵过程称为二元交叉熵:
这是真的?为什么负对数似然与交叉熵相关?为什么伯努利随机变量表现如此出色?
简而言之,二元交叉熵是如何工作的?