我对如何仅使用分类数据构建任何类型的 ML 模型感到有些困惑。
我有一个由每个人完成的训练数据集。该数据集有大约 25 列(培训的名称)和 3500 多行(已完成或未完成的培训),每行索引到一个特定的人。由于训练是分类的,我已经对数据集的每一行/列进行了热编码,每一行仍然索引到特定的人。最后一列是一个人参与的事件总数(现在是 0 或 1 个事件总数,但将来可能会更多)。
有没有办法建立某种类型的多元或多元线性回归预测/机器学习模型,以根据他们接受或未接受的培训来预测诸如哪个人更有可能参与事件之类的事情 - 或者哪些培训是最有效的基于一些事件等?此外,有没有办法根据每个人接受(或未接受)的培训以及他们参与或未参与的事件总数为每个人分配概率?同样,我不确定该怎么做,因为我正在尝试从其他分类数据中预测分类数据。
这是我的数据框的一个示例(每一行都被索引到特定的人而不是行索引号):
import pandas as pd
data = {'Training1':[1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1],
'Training2':[0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1],
'Training3':[1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0],
'Training4':[1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1],
'Training5':[1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1],
'Training6':[1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1],
'Training7':[1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0],
'Training8':[1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1],
'Training9':[1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1],
'Training10':[1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1],
'Training11':[1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0],
'Training12':[1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1],
'Training13':[1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1],
'Training14':[1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1],
'Training15':[1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1],
'Training16':[1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0],
'Training17':[1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1],
'Training18':[1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1],
'Training19':[1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1],
'Training20':[1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0],
'Training21':[1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1],
'Training22':[1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1],
'Training23':[1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0],
'Training24':[1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1],
'Training25':[1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1],
'Total_Incidents': [1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1]}
df = pd.DataFrame(data)