我正在处理未标记的数据集(有关源代码注释的文本消息)。我对此数据集中的隐含类没有假设。我想发现(通过聚类)消息组共享的常见隐藏模式。这是一个无监督学习问题。有人问我如何在没有正确答案数据集的情况下验证这种方法(模式发现、集群),以用“现实”来衡量模型的输出。我既不是消息数据集领域的专家,也不是手动检查和标记数据的专家。那么,如何解决这个问题或提供有关模型输出的科学解释?如何证明模型生成的聚类是合理的或正确的?
如何在没有基本事实的情况下验证聚类模型?
数据挖掘
机器学习
nlp
聚类
2022-02-21 16:12:02
1个回答
在我看来有两种方法:
- 请几位专家根据样本评估聚类的质量(在完成聚类之后,比预先注释整个数据要容易得多,尤其是在聚类的情况下)
- 如果聚类是从在另一个任务中使用结果的角度进行的,那么这个其他任务的性能将反映聚类的质量。
恕我直言,任何基于集群之间距离的测量或其他技术测量都是有缺陷的评估,因为它取决于表示的质量。不过,这些措施可能会提供一些有用的指示,只是不能对任务进行适当的评估。
其它你可能感兴趣的问题