一个数据点——在数据准备期间花费的资源太少?

数据挖掘 机器学习 神经网络 深度学习 数据挖掘 统计数据
2021-09-17 08:55:15

我正在在线学习分析,并有一些快速的问题。

通常我们在做分析的时候,为什么我们通常会忽略不那么频繁的项目/数据点?

例如:我们有药物频率数据,没有在医院服用该药物的患者。例如,数据如下所示,但在实时数据中,我什至可能有数百万条记录

在此处输入图像描述

从上面的截图我们可以知道,无论我们对上面的数据(包括这里没有显示的几列数据)进行任何分析和见解,我们都绝对不会考虑Drug D

这意味着我们不能基于我们从数据中得出的结论/见解,Drug D因为 5000 名患者中只有 2 名拥有它,这比0.05%我们的数据少。

通过它似乎直观地有意义,因为0.05%对输出的影响很小。

现在我的问题是Drug G. 它在我们的数据中出现1.14%过几次?

我怎么知道可以相信Drug D - 0.05%对输出的影响很小并且可以忽略而Drug G - 1.14%必须保留?

我不确定我的英语技能是否有助于您理解我想要传达的内容。

编辑 - 更新(如果我的问题之前不清楚,请道歉)

我要做的是(不是 ML 任务,而是数据准备任务),手动将药物名称映射到字典中可用的术语(Data Preparation task)。正如您在屏幕截图中看到的那样,Drug A映射到ABCDE A. 同样,我必须手动映射所有 50K 药物。但是,我的问题如下

a)我不能花费资源(金钱/人)手动(因为它不能自动化)检查所有 50K 药物并将其映射到 dict 术语,因为没有人有兴趣做这项工作。谁有兴趣,谁就不愿意,不可能全部做完 50K 药,而且要花这么多钱来付钱。所以,我必须确保人工审阅者首先关注重要的(高频)术语,甚至可以忽略它们,DRUG D或者DRUG G因为它们对数据的贡献很小(考虑到数百万条记录的完整数据集)?问题主要是基于系统方法/数学方法而不是我的判断/目视检查/主观的决策。

b)因此现在,我想知道是否有任何客观/系统/数学方法可以告诉我,我们可以忽略低于某个特定值的所有药物N%等......因为我不能只说通过目视检查我觉得Drug G并且Drug D可以忽略。如果您要建议我Statistical significance test,请指导我如何将其设置为问题?因为我经常看到,它用于假设检验。我可以请您指导我吗?

2个回答

实际上,与统计相关的所有事情(包括机器学习)都与研究机会有关,即试图确定观察在多大程度上是由于机会造成的。

例如,人们可能想知道一种药物是否真的有助于治疗某种疾病。如果我们观察到一名患者在服用药物后有所改善,则没有足够的证据可以得出结论,因为许多其他因素可能导致了这种改善。这就是为什么需要一个非常严格的协议来获得具有统计学意义的观察结果(两组患者、安慰剂等)。需要进行相当多的观察,否则无法区分“机会”(任何其他因素)的影响和药物的实际影响。

a) 是否有任何系统/数学/理论方法可以告诉我任何小于 N% 的东西都太少而无法影响/影响输出?

了解观察是否是偶然的标准方法是使用适当的统计显着性检验其中有很多,它们取决于测试的具体内容。

b) 你如何决定哪些项目太少而不会影响产出。你的判断是一种主观的方法吗?

在 ML 中,通常采用更具实验性的方法,例如尝试有/没有观察或特征,然后评估哪些版本效果更好。当然,对更可能起作用的方法有直觉是有帮助的。一般来说,包括极其罕见的观察是一个坏主意,因为它可能会导致过度拟合,即当模型“学习”实际上是偶然的东西时。


[在 OP 更新后添加]

在这种情况下,这是一个资源分配问题,我认为这里没有统计意义。假设您想根据药物的使用频率优化体力劳动的使用,即唯一要最大化的是被标记药物的频率总和,那么很简单:按频率对所有药物进行排名降序,然后按照此顺序进行手动注释。通过这种方式,您可以确保首先完成占更多患者的药物,因此每当手动注释停止时,就会标记出尽可能多的药物。

除了 Erwan 的回答(提供了很好的一般性建议)之外,当您决定保留数据时,请考虑以下问题。

你想回答什么问题?你想从数据中学到什么?

如果您正在尝试建立一个模型,该模型将根据所施用的药物和患者的各种其他生物医学数据来预测患者的康复,那么如果药物 G 确实是一种非常罕见的治疗方法,则最好将其排除在外。包括它们可能会导致过度拟合,特别是如果一个影响很大。或者,您的模型可能会因为药物 G 的低流行度而将其作为特征的重要性非常低。

正如 Erwan 所说,最好的方法是实验性的。查看您的模型在有数据和没有数据的情况下的表现。然而,忽略药物 G 有其自身的危险。如果药物 G 是一种较新的治疗方法,那么您向模型提供的下一轮数据中可能会包含更多药物 G,而您的模型在这些数据上的表现会很差。在这种情况下,您始终可以修改您的模型。

考虑一个修改后的场景。你在生产药物 G 的公司工作。药物 G 相对较新,已被批准用于治疗 X 病。许多 X 病患者也有 Y 病,服用药物 G 似乎也有助于 Y 病患者的改善。您的雇主想知道用药物 G 治疗疾病 Y 的研究是否值得投资以尝试与市场上的其他药物竞争。

在第二种情况下,您不能省略药物 G 的数据。但是,由于药物 G 在整个数据集中的代表性不足,您仍然会遇到过度拟合模型的危险(回归问题中的挑战),一个低估药物的模型G,因为它的代表性不足(分类问题的挑战),或者统计上不显着的结果(一般的挑战)。