我手头有一个任务,我必须向decision tree一个不太了解machine learning. 我一直在环顾四周,但发现很难用外行的话来解释算法,这样一个人就会明白这个过程中发生了什么。
描述算法的最佳方式是什么,可能使用一些非常简单的基本示例,以便将算法的整个过程分解为简单的步骤以便理解?
我手头有一个任务,我必须向decision tree一个不太了解machine learning. 我一直在环顾四周,但发现很难用外行的话来解释算法,这样一个人就会明白这个过程中发生了什么。
描述算法的最佳方式是什么,可能使用一些非常简单的基本示例,以便将算法的整个过程分解为简单的步骤以便理解?
我通过例子学得很好,所以也许这会有所帮助:
假设您是考虑下一个广告活动的度假村。您将发送 1,000 张优惠券,在度假村提供两天免费住宿,希望客户决定将其延长至整整一周(谁想要两天假期?!)。
你有一个相当广泛的客户数据数据库,包括他们来自哪里、收入范围、逗留时间和每次逗留花费的钱、孩子数量、婚姻状况和就业状况(工作、失业、退休)。您想创建一个决策树来帮助选择将代金券发送给的客户(特别是那些每天花费至少 200 美元并至少停留一周的客户。
要创建树,计算机将执行以下步骤:
决策树是使用分支方法来说明决策的每个可能结果的图。这里每个内部节点代表一个属性的“测试”(例如,抛硬币是正面还是反面),每个分支代表测试的结果,每个叶节点代表一个类标签(在计算所有属性后做出的决定)。从根到叶的路径代表分类规则。这可以表示为图表。现在您可以根据条件规则解析可能的节点和边(如果条件 1 和条件 2 和条件 3 则结果。)
维基百科链接本身有一些很好的例子:https ://en.wikipedia.org/wiki/Decision_tree
还要检查这些链接:
http://blog.echen.me/2011/03/14/laymans-introduction-to-random-forests/
我必须为回归树做类似的事情。我想出了一个非常简单的完整示例;我在黑板上写下了因变量和自变量表。最棘手的部分是解释第一次拆分是如何发生的(它最小化子样本中因变量的 MSE),能够指向表格会有所帮助。之后我们只为一个子问题做同样的事情。