在数据挖掘中达到 100% 准确率

数据挖掘 数据挖掘 文本挖掘 主题模型 低密度脂蛋白
2022-03-13 15:54:28

我目前正在使用主题模型,尤其是 LDA,现在我问自己是否有可能达到关于结果的完全准确度。

如果我检查我的主题模型的结果,每个文档的整体主题分配都非常好,但有些文档分配的主题不太合适。

所以总的来说,我得到了大约的准确度。85%.

是否可以到达100%数据挖掘的准确性?

2个回答

从理论上讲,当然可以达到完美的性能:如果算法可以在特征中找到它需要的东西来正确区分类(或集群),那么它将完美地执行。

然而,在现实中,完美的表现是非常罕见的,因为:

  • 文本数据嘈杂且极其多样化
  • 大多数时候,当有一种方法可以获得完美的性能时,还有一种简单的启发式方法可以比使用 ML 更有效地完成相同的工作。基本上使用 ML 正是因为任务很艰巨和/或数据很复杂,所以出现错误也就不足为奇了。

就您的问题而言,我注意到您的数据有标签,但您使用的是无监督的主题建模方法,对吗?如果是这种情况,您可能想尝试使用监督方法,因为系统将有更多线索来找到正确答案。您还使用准确性进行评估,所以要小心:准确性可能会产生误导,因为它没有提供有关不同类别的任何细节。

我想说的是,即使在理论上,您实际上也无法在统计上达到 100.00% 的准确度,但您可以非常接近。但是,您离得太近可能意味着您的过度拟合。这是因为在任何具有超过 2 个独立或同分布的预测变量的系统中,您不能在统计上绝对零不确定性(见脚注)。

  • 首先是一个反事实的例子: 不确定性原理说物理学中的不确定性永远不会为零,它的 hbar/2 。该链接虽然纠正了对这一量子力学定律的普遍误解。不确定性原理不仅仅是自然界或现实中的某种东西,而是关于物理学中任何多元模型的硬派统计数据。因此,不确定性不仅适用于实际现实,也适用于任何理论数学。(我会让人们比我更聪明地介绍物理学中不确定性的含义。
  • 比物理学更广泛:你知道文本挖掘和信息论有一个想法,我一直觉得有点奇怪地叫做“熵”。现在我不是文本挖掘专家,但似乎很多人将熵比作一种不确定性,而不仅仅是获得的信息。(我个人认为他们只是将其称为不确定性,因为物理学中的熵和不确定性不是一回事)
  • 那么文本挖掘中是否存在不确定性原理? :答案是肯定的,实际上信息论中的“熵”或不确定性是有限制的

因此,对于您的数据是文本,您的准确性受到以下事实的限制. 不过,请阅读链接以获取更多详细信息。

脚注:我敢说任何像 y = m*x 这样的单变量模型或算法也不能有 100% 的准确度,但我无法在数学上证明这一点(我将留给比我聪明的人来证明这种情况)。不过,证明任何具有 y = x1 + x2 + … 的模型不能有 100% 的准确度是很容易的。