我怎样才能适当地处理性别数据的清理?

数据挖掘 机器学习 数据清理 分类数据
2021-10-05 01:58:58

我是一名数据科学专业的学生,​​我已经开始使用一个开放的心理健康数据集。作为其中的一部分,我需要清理数据以便进行分析。

在这个数据集中,性别字段是一个可以输入任何内容的字符串。虽然清理大多数条目都相当简单(“f”、“F”、“female”、“cis female”和“woman”都可以编码为“F”),但我想知道的是如何正确处理 trans 或酷儿身份(例如,写有“跨性别女性”或“酷儿/她/他们”之类的词条)。

我应该为每个性别的跨性别条目创建一个新代码,还是应该只对它们进行编码,就好像它们是他们所识别的性别的成员一样?

我是否应该将它们完全从数据集中删除,因为它们可能会扭曲它?我记得读到过,跨性别者的精神疾病发病率比顺式者高得多。

在这方面我应该遵循任何最佳实践吗?

4个回答

至少有两个一般性的考虑因素:

领域相关

如果某个属性可能在您的领域中具有预测能力,更具体地说,对于您的任务,您的模型可能会从直接编码中受益。例如:如果跨性别与不同的心理障碍相关,那么我会为此添加一个直接特征。这样,您的模型就更容易做出预测,因为它不需要首先结合两个特征(例如,不需要结合“出生时的性别”和“性别识别”来识别变性人(这不会甚至准确,因为“反式”是一个比sex at birth != gender identity)) 更广泛的术语。

此外,我会将相同的想法应用于其他特征工程问题。性对与精神障碍相关的许多任务具有预测能力,例如,因为情绪障碍在女性中更常见,反社会人格障碍在男性中更常见。然而,这些是否与出生时的性别或一个人所认同的性别有关,则是另一个问题。因此,如果您的假设是在您的任务中,一个人所认同的性别很重要,那么再一次,除了出生时的性别之外,将其包括在内是有意义的。

模型相关

不同的模型能够以不同的方式处理预测变量。例如,基于树的模型可以更轻松地使用两个单独的属性sex == femaletrans == True隐式派生trans female == True. 然而,像神经网络这样的线性模型可能会从组合二元特征中受益female trans

这是一个相当有趣的问题。我想你可以称之为“处理二进制语言中的非二进制性别角色”或类似的东西。

过去我做过一次类似的事情。我创建了 3 个功能:

  • 出生性别[男,女]
  • 性别鉴定[男,女]
  • 对[男性,女性]有性吸引力。

所有这些特征都是二进制的,您可以将其编码为 0,1。你可以通过两者的结合来实现大部分的性状态,例如,出生性别=男性,性别认同=女性会给你一个跨性别者。sex_birth = 男,被吸引 = 男会给你一个男同性恋。

决策树应该能够区分信息并使用这种编码对其进行正确分类。

您还可以对所有特征进行笛卡尔积,然后以这种方式对其进行编码:

对此应用 one-hot 编码将为您提供 8 个功能,这些功能将包括高比例的案例。这种编码将允许树通过拆分来区分性别,并允许线性回归正确分配权重。

确实,这并不完全正确,您可以抱怨很多事情。但最后,在建模时,我们正在做近似,我们总是会遗漏一些东西。

所有模型都是错误的,但有些是有用的

如果你找到更好的东西,请告诉我。

当然,无需退出分析。您的分析应该能够按领域分类,即使您只是将它们分配到第三(或第四或...)类别。您将基本上比较女性:非女性,男性:非男性等;将它们保存在数据集中意味着在比较这些域时可以获得更好的结果。

您做出的决定在某种程度上取决于您在分析中回答的问题。你在问与性别认同有关的问题吗?您是否专注于特定的性别或性别?或者您是否正在探索您的数据并希望了解哪些因素很重要?

例如,如果您专注于一种性别认同,例如女性,那么您可以简单地将非顺式女性非顺式男性归类为第三(“其他”)类别。这不会为您提供有关跨性别或其他非顺性别个体的任何信息,但如果这对您的问题实际上并不重要,那么这是处理它们的最简单方法。

但是,如果您正在探索,并且正如您在问题中指出的那样,您知道这可能是一个重要因素,那么您应该将其分类 - 可能作为一个单独的变量。但是,请考虑在分配这些时如何执行分析;您可能仍希望将“跨性别女性”分配为单独的性别,具体取决于使您的分析更容易的原因(同时仍具有trans1/0 标志变量或cis1/0 标志变量或类似变量)。如果您没有任何计划基于所有女性(无论是跨性别/顺式/等)进行分析,那么在那里有一个单独的性别代码可能更容易分析,而不是必须包括跨性别/cis 在这些分析中标记变量。

这里的一些注意事项:

数据是如何收集的?

如果是自我报告,很可能大多数跨性别者只会简单地回答“男性”、“女性”或其他没有表明跨性别身份的同等词语。如果被别人举报,很可能记者往往不知道这个人是跨性别的。

如果您数据中的大多数跨性别男性与顺式男性无法区分,女性也同样如此,那么 - 暂时忽略非二元案例 - 您的分类选项是:

  1. “Cis men and trans men” vs. “cis women and trans women”(如果将“trans man”映射到“man”等)
  2. “顺式男性、大多数跨性别男性和一些跨性别女性”与“顺式女性、大多数跨性别女性和一些跨性别男性”(如果将“跨性别男人”映射到“女性”等)

恕我直言,这两个中的第一个似乎显然更可取。它可能不是每个应用程序的最佳描述,但至少它的定义相当明确。替代方案只是模糊的。

你的决定真的会影响结果吗?

很可能没有足够的(可识别的)跨性别和非二元性别的人来获取有关“跨性别男性”、“跨性别女性”或“非二元性别的人”类别的任何有用数据。这些群体也很可能非常罕见,以至于它们不会对“男性”和“女性”等较大类别的整体统计数据产生重大影响,无论其定义如何。

如果您不是在谈论开源数据,我还会提出针对小群体的报告的隐私问题,但大概已经考虑过了。

分析的重点是什么?

如果您克服了上述考虑……性别和跨性别身份与您要了解的内容有何关系?这可能与您的决定有关。

我是否应该将它们完全从数据集中删除,因为它们可能会扭曲它?

与跨性别者相比,顺式人士可能对你的结果产生更大的影响。因此,我们是否应该因为害怕扭曲而将顺式人从分析中剔除?

跨性别者是人。如果你的目标是产生关于“人”的整体统计数据,那么跨性别者应该包括在这些统计数据中。如果某些跨性别者不寻常(以任何方式)并且这会影响统计数据,那么统计数据只是反映了某些人不寻常的事实。