我正在使用一种机器学习方法来计算图像中的汽车。我有一个预测数据集,它是机器学习方法的预测输出和一个配对的“真实”数据集,它是人类浏览每张图像并计算汽车数量的结果。
以下是数据集的样例(请注意,实际数据集有 2500 个配对样本):
import pandas as pd
d = {'true': [0,0,0,1,1,0,1,0,0,0,0,0,0,0,4,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1],
'predicted': [0,0,0,0,0,0,1,0,0,0,0,0,0,0,2,2,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1]}
df = pd.DataFrame(data=d)
true predicted
0 0 0
1 0 0
2 0 0
3 1 0
4 1 0
5 0 0
6 1 1
7 0 0
8 0 0
9 0 0
10 0 0
11 0 0
12 0 0
13 0 0
14 4 2
15 2 2
16 0 0
17 0 0
18 0 0
19 0 0
20 0 0
21 0 0
22 0 0
23 0 0
24 0 1
25 0 0
26 0 0
27 0 0
28 0 0
29 0 0
30 0 0
31 0 0
32 1 1
我正在寻找一种向观众展示预测方法的方法,以便他们查看预测是否在统计上与真实观察结果相同,并可视化数据中的任何趋势(例如,预测方法有过度或不足预测的趋势) . 如果这些是分类数据,我会使用混淆矩阵,但是,我不确定如何处理这些以 0 为重的成对离散数据集。
我可以采取什么方法来统计比较预测数据集和真实数据集?
