我有一个患者记录数据集,但它们没有标签。
我想给它们贴上标签,并想知道我可以考虑用哪些不同的方法来给它们贴上标签。
例如:我在下面给出了两种方法,但还有其他方法吗?
1) 人工贴标
2) 基于规则
3) ..
4) ..
你们都在数据科学和人工智能方面经验丰富
您能否分享一些您知道的方法和我可以参考的资源?
我有一个患者记录数据集,但它们没有标签。
我想给它们贴上标签,并想知道我可以考虑用哪些不同的方法来给它们贴上标签。
例如:我在下面给出了两种方法,但还有其他方法吗?
1) 人工贴标
2) 基于规则
3) ..
4) ..
你们都在数据科学和人工智能方面经验丰富
您能否分享一些您知道的方法和我可以参考的资源?
1)手动标记---这并不像听起来那么糟糕。尤其是当你应用迁移学习时,并且对于大多数数据集,你有很多预训练的模型。有产品,但也有内联 python库
2) 基于规则——不可见,因为您的模型将只关注这些 if-else 规则本身。如果这些规则在数据集中不那么可见,并且模型不能那么容易地捕捉到它,那将是最好的。这只是意味着它将开始学习其他可能有价值的功能中的信息。
3) Pseudo Labeling ---- 将自信的预测测试数据添加到您的训练数据中。因此,您将强化清晰标记的数据,并使用它们来帮助和标记/预测其他数据。请注意,它是一种潜在的过拟合方法。
4)无监督方法----尝试找到数据的良好表示。与应用聚类算法相比,它具有足够的区别性。如果生成的聚类清晰且不同,您可以查看每个聚类中的几个样本,并得出数据集中每个样本的标签是什么。
一个体面的简单方法是: