计算数据集中的概率

数据挖掘 可能性
2022-03-02 12:30:49

在样本数据集中计算概率的好方法是什么?每个样本都是一个测量值,通常为 1 或 0。目标是根据所有特征行计算概率。

简单示例数据集:

    feature   label
    dog       1
    dog       0
    dog       0
    dog       0
    cat       1
    cat       0

预期输出:

    feature  result
    dog      0.25
    cat      0.5

真实数据集有大约 50 个特征。

2个回答

对于示例,您可以简单地计算每个特征的平均值,但是我不确定这是否正是您想要的。如果您已经将数据加载到 pandas 数据框中,这将非常简单

df.groupby(["feature"]).mean().reset_index()

假设X是特征和y - 标签

#Put algorithm as you wish 
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(max_depth=2, random_state=0)
clf.fit(X_train, y_train )


clf.predict_proba(X_test) # there you will get probabilities of the class