如何解决这个多标签分类问题,它的准确度指标是什么?

数据挖掘 机器学习 分类 scikit-学习
2022-02-25 17:46:07

我有一个数据集供人们在各个细分市场(类别)进行交易。我正在尝试构建一个多标签分类器来预测在各个细分市场(类别)中交易的人们。

我的数据集:

Client_id [Demographic data] orders_perday Traded_days Segment
 A123      ..............     3             4           equity
 A123      ..............     2             2           commodity
 A123      ..............     1             9           currency
 B789      ..............     7             8           equity
 B789      ..............     3             2           futures
 C456      ..............     2             7           currency
 D987      ..............    10             1           equity
 C183      ..............     2             9           currency

人口统计数据包括年龄、性别、城市、收入等。

我需要建立一个模型来预测新客户属于哪个类(段)可以是1个或更多。请就如何解决此问题提供一些建议

1个回答

与任何数据科学问题一样:首先探索数据,然后尝试您认为可能在某种程度上可行的最简单解决方案来解决问题。

要探索数据,请查看所有特征的分布。它们对识别细分市场有帮助吗?您在细分市场中有多少交易,类别是否平衡(所有类别中的数量或多或少相似)?如果没有,您需要小心准确度等指标,例如,使用 F1 分数可能会更好。

对于算法,如何从决策树开始并从那里获取呢?您可以将其用作基准模型来与其他实验的结果进行比较。例如使用增强树或随机森林或神经网络等树的更复杂的算法。

性能指标通常使用一种称为“1 vs all”的技术对所有类进行平均。为此,您从第一部分开始,例如“股权”。您可以使用该模型来识别“公平”或“非公平”,并计算此任务的 F1 分数。对所有其他类和平​​均重复。