信息论在应用数据科学中的应用

机器算法验证 信息论
2022-03-10 04:13:11

今天我看到 James Stone 写的《信息论:教程介绍》一书,思考了一两分钟关于信息论在应用数据科学中的使用程度(如果你对这个仍然有些模糊的术语感到不满意,想想数据分析,恕我直言,数据科学是它的美化版本)。我很清楚在各种统计技术和数据分析方法的背后基于信息论的方法方法度量,尤其是熵的重要使用。

但是,我很好奇应用社会科学家在不深入研究理论的数学起源的情况下成功选择应用这些概念、措施和工具所需的知识范围/水平。我期待您的回答,这可能会在上述书籍(或其他类似书籍 - 随意推荐)或一般情况下解决我的担忧。

我还希望对印刷或在线资源提供一些建议,这些资源在)其他(更多)传统统计方法常客贝叶斯)的背景下讨论信息论及其概念、方法、方法和度量

1个回答

所以问题的第一部分:数据科学家需要了解信息论吗?直到最近,我才认为答案是否定的。我改变主意的原因是一个关键因素:噪音。

许多机器学习模型(无论是否随机)都使用噪声作为其编码和转换过程的一部分,并且在其中许多模型中,您需要在解码模型的转换输出后推断噪声影响的概率。我认为这是信息论的核心部分。不仅如此,在深度学习中,KL散度是一个非常重要的度量,它也来自信息论。

问题的第二部分:我认为最好的来源是 David MacKay 的Information Theory, Inference and Learning Algorithms他从信息论开始,并将这些想法应用于推理甚至神经网络。Dave 网站上的 PDF 是免费的,而且讲座是在线的,非常棒