标记数据的不同方法

数据挖掘 机器学习 神经网络 深度学习 数据挖掘 特征选择
2022-02-23 15:27:12

我有一个患者记录数据集,但它们没有标签。

我想给它们贴上标签,并想知道我可以考虑用哪些不同的方法来给它们贴上标签。

例如:我在下面给出了两种方法,但还有其他方法吗?

1) 人工贴标

2) 基于规则

3) ..

4) ..

你们都在数据科学和人工智能方面经验丰富

您能否分享一些您知道的方法和我可以参考的资源?

2个回答

1)手动标记---这并不像听起来那么糟糕。尤其是当你应用迁移学习时,并且对于大多数数据集,你有很多预训练的模型。产品,但也有内联 python

2) 基于规则——不可见,因为您的模型将只关注这些 if-else 规则本身。如果这些规则在数据集中不那么可见,并且模型不能那么容易地捕捉到它,那将是最好的。这只是意味着它将开始学习其他可能有价值的功能中的信息。

3) Pseudo Labeling ---- 将自信的预测测试数据添加到您的训练数据中。因此,您将强化清晰标记的数据,并使用它们来帮助和标记/预测其他数据。请注意,它是一种潜在的过拟合方法。

4)无监督方法----尝试找到数据的良好表示。与应用聚类算法相比,它具有足够的区别性。如果生成的聚类清晰且不同,您可以查看每个聚类中的几个样本,并得出数据集中每个样本的标签是什么。

一个体面的简单方法是: