我在我的书中遇到了主观兴趣度量这个词,作者说:
主观兴趣度测量基于用户对数据的信任。如果它们是意外的(与用户的信念相矛盾)或提供用户可以采取行动的战略信息,这些措施会发现有趣的模式。
(数据挖掘和概念与技术,作者韩佳伟和米歇琳·坎伯)
我非常困惑“意外”数据如何成为有趣的模式?我是否错误地理解了这个概念?你能给我一个插图吗?
我在我的书中遇到了主观兴趣度量这个词,作者说:
主观兴趣度测量基于用户对数据的信任。如果它们是意外的(与用户的信念相矛盾)或提供用户可以采取行动的战略信息,这些措施会发现有趣的模式。
(数据挖掘和概念与技术,作者韩佳伟和米歇琳·坎伯)
我非常困惑“意外”数据如何成为有趣的模式?我是否错误地理解了这个概念?你能给我一个插图吗?
考虑以下规则的经典示例:
IF(患者怀孕) THEN(患者为女性)。
这条规则非常准确和易于理解,但它并不有趣,因为它代表了显而易见的事情。来自现实世界数据集的另一个例子,
IF (used_seat_belt = 'yes') THEN (injury = 'no')....................... .....................(1)
IF ((used_seat_belt = 'yes') Λ (passenger = child)) THEN (injury = 'yes')......(2)
规则(1)是一个普遍的和明显的规则。但是规则(2)与规则(1)所代表的知识相矛盾,因此用户的信念。这种知识是用户预设信念出乎意料的,从数据集中提取这种有趣(或令人惊讶)的知识总是很有趣。“出乎意料”是指用户的信念出乎意料的知识,即如果决策规则代表的知识不仅用户以前不知道而且与用户的原始信念相矛盾,则该决策规则被认为是有趣的(或令人惊讶的)。
我希望,这些例子可以帮助你更清楚地理解这个概念。
编辑
是的,首先,发现一般规则,然后发现这些一般规则的例外。例如,
一般规则:如果鸟然后飞
然而,像鸸鹋和企鹅这样的特殊鸟类很少会飞。与规则一起发现这些例外肯定是有价值的,使规则更准确、更易于理解和更有趣。