根据一些统计数据手动分配分数?

数据挖掘 分类 统计数据
2022-03-01 14:24:24

我正在尝试根据某些特定条件手动分配分数以识别不良帐户(不在 Stacks 社区中!),例如,如果他们的帐户名称仅包含数字和有限数量的评论、过去的历史差、分数差、被禁止, 等等。

为此,正如我所提到的,我正在执行以下操作:

-if number of reviews is < 2 then assign -1;
or
-if past history is poor then assign -1;
or 
-if account score is less than 3 then assign -1;

等等。

由于我的数据集中的所有用户都有评论数量、过去历史记录、帐户分数等变量,我只是想知道我应该以不同的方式分配分数,也许使用基于平均值的更具统计性的方法。我的目标是确定一种算法,该算法可以根据上述条件预测一个帐户是坏的还是不考虑时间。

如果您能告诉我您的想法,我将不胜感激。

谢谢

1个回答

如果您使用 ML 模型来学习基于您的特征构建的分数,那么可能发生的最好的事情是您的模型准确地学习您应用于特征的规则。它没有用,因为它等同于首先应用您的规则。监督机器学习仅对学习未知规则有用。

基本上你知道有两种方法:

  • 不要使用 ML 并保持你的规则不变。即使它不是最具预测性的模型,它也可能对观察异常行为很有用。
  • 如果您想采用 ML 方式,您需要构建相关的目标一般来说,这意味着对你的目标有一个可靠的、无可争议的定义。在您的情况下,目标可能是适度的行动。然后 ML 可以帮助您找到导致主持人干预的行为。