我对数据科学和机器学习还很陌生。我有一个项目的数据正在经历一个发布过程。我收集了各种变量的数据,例如“产品类别”、“产品线”、“设计国家”、“一天中的开始时间”,还有“总时间”的数据,即项目通过的时间整个过程。我总共有 18 个不同的输入变量,其中每个变量要么是分类数字,要么是离散数字,例如“一天中的开始时间”。
Design_cntry Prod_category prod_line ... time_minutes
A A1 A11 ... 43.2
B B1 A11 ... 20.1
C E1 B11 ... 15.0
... ... ... ... ....
我想在 python 中建立一个统计回归分析模型,输出一个语句的概率。比如说 P(time > 1000 min | product category = A, product line = B, ... ),我想知道如何解决这个问题?有没有这样做的一般方法?或者任何人都可以推荐的关于这个主题的好文章/文献?
我只有非负数据,所以也许有任何基于指数分布的好的回归形式?