我正在在线学习分析,并有一些快速的问题。
通常我们在做分析的时候,为什么我们通常会忽略不那么频繁的项目/数据点?
例如:我们有药物频率数据,没有在医院服用该药物的患者。例如,数据如下所示,但在实时数据中,我什至可能有数百万条记录
从上面的截图我们可以知道,无论我们对上面的数据(包括这里没有显示的几列数据)进行任何分析和见解,我们都绝对不会考虑Drug D。
这意味着我们不能基于我们从数据中得出的结论/见解,Drug D因为 5000 名患者中只有 2 名拥有它,这比0.05%我们的数据少。
通过它似乎直观地有意义,因为0.05%对输出的影响很小。
现在我的问题是Drug G. 它在我们的数据中出现1.14%过几次?
我怎么知道可以相信Drug D - 0.05%对输出的影响很小并且可以忽略而Drug G - 1.14%必须保留?
我不确定我的英语技能是否有助于您理解我想要传达的内容。
编辑 - 更新(如果我的问题之前不清楚,请道歉)
我要做的是(不是 ML 任务,而是数据准备任务),手动将药物名称映射到字典中可用的术语(Data Preparation task)。正如您在屏幕截图中看到的那样,Drug A映射到ABCDE A. 同样,我必须手动映射所有 50K 药物。但是,我的问题如下
a)我不能花费资源(金钱/人)手动(因为它不能自动化)检查所有 50K 药物并将其映射到 dict 术语,因为没有人有兴趣做这项工作。谁有兴趣,谁就不愿意,不可能全部做完 50K 药,而且要花这么多钱来付钱。所以,我必须确保人工审阅者首先关注重要的(高频)术语,甚至可以忽略它们,DRUG D或者DRUG G因为它们对数据的贡献很小(考虑到数百万条记录的完整数据集)?问题主要是基于系统方法/数学方法而不是我的判断/目视检查/主观的决策。
b)因此现在,我想知道是否有任何客观/系统/数学方法可以告诉我,我们可以忽略低于某个特定值的所有药物N%等......因为我不能只说通过目视检查我觉得Drug G并且Drug D可以忽略。如果您要建议我Statistical significance test,请指导我如何将其设置为问题?因为我经常看到,它用于假设检验。我可以请您指导我吗?
