基本机器学习问题,看看从哪里开始

数据挖掘 多类分类
2022-02-26 10:38:20

建议在此处发布而不是 StackOverflow

我正在做一些 ML,我只需要知道要开始使用的单词以及要使用的库/路径。

我有两个数据集,如下所示,

| UserName | Location | Department |
|test.user | Chicago  | IT         |
|asd.smith | LA       | Marketing  |   
|qwe.smith | Chicago  | IT         |   
|dfg.smith | Chicago  | Marketing  |

| UserName | Permission | 
|test.user | 1          | 
|asd.smith | 2          | 
|asd.smith | 4          |   
|qwe.smith | 1          | 
|dfg.smith | 1          |   
|dfg.smith | 2          | 
|dfg.smith | 3          | 

我试图解决的问题是,如果一个新人被雇用到芝加哥/营销部门,他们获得许可 X 的几率是多少。

因此,对于上述数据集,我希望它会说,他们有 100% 的机会拥有权限 1,他们有 100% 的机会拥有权限 2,他们有 50% 的机会拥有权限 3

我真的只是在寻找一个正确的方向,从哪里开始/存在什么样的模型来解决这样的问题/谷歌的正确词。

2个回答

一种选择是构建一个朴素贝叶斯分类器给定您的两个类别特征(即位置和部门),从一组类别(即权限)中预测单个类别成员。

正如 Brian Spiring 所提到的,这是一个基于概率的问题,最好用贝叶斯来解决。

在考虑机器学习时,这是一个近来有点流行的术语,你需要真正考虑这个问题。您是要研究数据的特征(特征分析)还是要预测下一个要添加到列表中的人(预测)?机器学习可以实现这两者,但如果您只是想研究这些功能,可能需要做很多工作。

STATA、SPSS 等软件可以处理您提到的数据大小,当您只想了解数据并获得洞察力时,可以更加直接。

为了提供更有意义的响应,最好详细了解所提到的其他变量,因为这些变量也可能对所选模型和用例产生很大影响。