想要过拟合模型来说明数据是否以前见过

数据挖掘 数据集 大数据
2022-03-16 17:57:20

我想训练一个可扩展的模型,该模型具有数据库的输入行,并且输出为 1 或 0,具体取决于它之前是否看到过数据库的此条目。这样做的目的是随后能够检查类似的数据库并确定第一个数据库中哪些条目是相同的,而无需共享数据库。我不能散列条目和散列匹配或任何其他类似的技术。

也就是说,假设两个组织都在使用一个只有浮点数和columns = ["name" : float, "age": float, "net_worth": float]. 现在,假设我是第一组,我训练了一个模型,它会过度拟合我的数据,以某种方式“记忆”它。然后,我想要做的是将该模型发送给其他组织,后者可以将其应用到他们表格的每个元素。然后,这将告诉其他组织他们的数据集的哪些条目也由我共享。

我知道这是尝试解决此问题的一种独特(如果不是非常奇怪)的方法,但这是我正在尝试采用的方法。有没有人有他们能想到的解决方案?

2个回答

我不确定机器学习方法是否适合此类任务。我很想拒绝。原因主要是,ML 通常用于发现模式或相似性,而它们旨在泛化,因此即使由于某些随机性(噪声等)而看起来不同,它们仍然可以识别模式。

但是,在您的情况下,这听起来更像是您想要发现完全匹配的内容。

您还必须考虑,您不能在不减少信息的情况下以任意紧凑的形式存储数据。因此,即使您会找到适合您的目的的 ML 模型,您也不能期望它消耗更少的空间作为您想要在其他数据库中查找匹配的数据库的一部分。

您可以训练一个二元分类器,因为这就是您所关心的(看到与否)。我会推荐 xgboost 二进制文件。