如何开始在 Python 中构建具有多个高维分类/离散输入变量的统计回归分析模型

数据挖掘 机器学习 回归 统计数据 逻辑回归
2022-03-09 23:21:03

我对数据科学和机器学习还很陌生。我有一个项目的数据正在经历一个发布过程。我收集了各种变量的数据,例如“产品类别”、“产品线”、“设计国家”、“一天中的开始时间”,还有“总时间”的数据,即项目通过的时间整个过程。我总共有 18 个不同的输入变量,其中每个变量要么是分类数字,要么是离散数字,例如“一天中的开始时间”。

Design_cntry      Prod_category    prod_line   ...   time_minutes
   A                  A1             A11       ...     43.2
   B                  B1             A11       ...     20.1    
   C                  E1             B11       ...     15.0
  ...                ...             ...       ...     ....

我想在 python 中建立一个统计回归分析模型,输出一个语句的概率。比如说 P(time > 1000 min | product category = A, product line = B, ... ),我想知道如何解决这个问题?有没有这样做的一般方法?或者任何人都可以推荐的关于这个主题的好文章/文献?

我只有非负数据,所以也许有任何基于指数分布的好的回归形式?

1个回答

首先,您必须对数据进行预处理。它包括对您的分类变量进行编码。您可以使用pandas.get_dummies, 或sklearn.preprocessing.OneHotEncoder在您的管道中执行此操作。根据您要使用的算法,您通常必须标准化您的数值变量。这可以使用任何sklearn.preprocessing方法来完成,例如StandardScaler.

如果要进行逻辑回归,则必须将输出变量 - 时间 - 分类为 ['小于 1000 分钟','超过 1000 分钟'] 之类的类。否则,如果你想保持时间不变,你正在做一个多元回归。