我目前正在使用主题模型,尤其是 LDA,现在我问自己是否有可能达到关于结果的完全准确度。
如果我检查我的主题模型的结果,每个文档的整体主题分配都非常好,但有些文档分配的主题不太合适。
所以总的来说,我得到了大约的准确度。.
是否可以到达数据挖掘的准确性?
我目前正在使用主题模型,尤其是 LDA,现在我问自己是否有可能达到关于结果的完全准确度。
如果我检查我的主题模型的结果,每个文档的整体主题分配都非常好,但有些文档分配的主题不太合适。
所以总的来说,我得到了大约的准确度。.
是否可以到达数据挖掘的准确性?
从理论上讲,当然可以达到完美的性能:如果算法可以在特征中找到它需要的东西来正确区分类(或集群),那么它将完美地执行。
然而,在现实中,完美的表现是非常罕见的,因为:
就您的问题而言,我注意到您的数据有标签,但您使用的是无监督的主题建模方法,对吗?如果是这种情况,您可能想尝试使用监督方法,因为系统将有更多线索来找到正确答案。您还使用准确性进行评估,所以要小心:准确性可能会产生误导,因为它没有提供有关不同类别的任何细节。
我想说的是,即使在理论上,您实际上也无法在统计上达到 100.00% 的准确度,但您可以非常接近。但是,您离得太近可能意味着您的过度拟合。这是因为在任何具有超过 2 个独立或同分布的预测变量的系统中,您不能在统计上绝对零不确定性(见脚注)。
因此,对于您的数据是文本,您的准确性受到以下事实的限制. 不过,请阅读链接以获取更多详细信息。
脚注:我敢说任何像 y = m*x 这样的单变量模型或算法也不能有 100% 的准确度,但我无法在数学上证明这一点(我将留给比我聪明的人来证明这种情况)。不过,证明任何具有 y = x1 + x2 + … 的模型不能有 100% 的准确度是很容易的。