选择正确的数据挖掘方法来找出每个参数对目标的影响

数据挖掘 数据挖掘 分类 r 支持向量机 分类数据
2022-02-23 09:06:24

我现在正在处理大量分类数据,我想在任何工具 [最好是 R] 中使用适当的数据挖掘方法来查找每个参数 [分类参数] 对我的目标变量的影响。为了简要介绍正在处理的数据,我的目标变量表示产品类型 [例如,一次性用品和非一次性用品],并且我有诸如根本原因、症状、客户名称、产品名称等参数。因为我的目标可以被视为二进制值,我尝试使用 Apriori 找到导致所需类别的值的组合,但是,我在该属性中有超过 2 个类别,我想使用所有这些类别并找到上述参数的效果每个类别。我真的很想尝试 SVM 并使用超平面来分离内容并获得 n 维视图。但,我没有足够的知识来验证这项技术,功能正在用来做分析。目前我有 9000 条记录,每条记录都代表用户的投诉。数据集中有很多可用的列,我试图用这些列来确定目标变量 [ myForumla <- Target~. ] 我也只尝试了 4 个分类列。没有得到正确的结果。

是否可以仅使用分类变量来开发 SVM 模型并使用 n 个超平面进行可视化?是否有任何适当的数据挖掘技术可用于仅处理分类数据?

3个回答

您可以尝试贝叶斯信念网络 (BBN)。BBN 可以轻松处理分类变量并为您提供多变量交互的图片。此外,您可以使用敏感性分析来观察每个变量如何影响您的类变量。

一旦你了解了 BBN 的结构,你就可以识别类变量的马尔可夫毯。类变量的马尔可夫毯中的变量是所有变量的子集,您可以使用优化技术来查看该马尔可夫毯中的哪些值组合使您的类预测最大化。

您是否尝试过随机森林对分类特征进行特征选择。随机森林使用邻近度计算(信息增益)来决定对特定特征进行拆分。随机森林:“每棵树建好后,所有的数据都顺着树往下跑,对每一对case计算proximities。如果两个case占据同一个终端节点,那么它们的proximity就增加一个。在结束时运行时,通过除以树的数量来对近似值进行归一化。近似值用于替换缺失的数据、定位异常值以及生成具有启发性的数据低维视图“有关更多信息,请查看此链接: http://www。 stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

上面的所有答案都是很好的路径。但是,如果您想在多种算法之间进行选择(全部在 R =D 中)并了解选择它们的原因,请尝试以下操作:

https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Dimensionality_Reduction/Feature_Selection

最后提示:该页面中的特征排名方法正是您想要的。;-)