仅匹配训练样本的分类算法

数据挖掘 机器学习 分类 机器学习模型 多类分类
2022-03-05 03:05:39

我有 10 个分类特征和一个多类目标。

训练数据包含相同的 10 个分类特征可能映射到不同目标类的行。

我应该选择满足以下标准的分类算法:

  • 仅当预测输入与训练数据中存在的行示例匹配时,预测输出才应显示结果。(我不想对它从未接受过训练的输入做出假设,因为这个模型将处理人们在现实世界中的生活)
  • 预测输出应该是与预测输入完全匹配的目标,按它们在训练数据中的频率排序,最高的为顶部的“最佳匹配”

我意识到这看起来可以通过数据库“轻松”解决,但我想使用分类和训练模型,而不是使用带有列、键、索引和其他无聊事物的繁琐数据库基础设施。

1个回答

严格来说,机器学习并不是这个问题的答案,因为机器学习方法总是通过概括数据中的内容来工作。换句话说,ML 方法旨在进行一些猜测,同时在统计上最小化错误风险:如果您不想要任何概括或错误风险,那么您就不需要 ML。

可能有一些符号方法可以做你描述的事情,但本质上它只是一个非常简单的确定性方法:

  1. 获取地图中训练数据中每个不同实例(包括标签)的频率
  2. 对于每个不同的实例(仅特征),保留最频繁的实例并丢弃所有其他实例。
  3. 申请时,只需在地图中查找实例并分配相应的标签即可。

带有列、键、索引和其他无聊的东西的繁琐的数据库基础设施。

这里有一个混淆:是否使用数据库的问题在这里无关紧要,因为这是您如何存储数据的问题,它与是否使用 ML 无关。

通常的建议:为正确的工作使用正确的工具......即使它很无聊;)