这里的一些注意事项:
数据是如何收集的?
如果是自我报告,很可能大多数跨性别者只会简单地回答“男性”、“女性”或其他没有表明跨性别身份的同等词语。如果被别人举报,很可能记者往往不知道这个人是跨性别的。
如果您数据中的大多数跨性别男性与顺式男性无法区分,女性也同样如此,那么 - 暂时忽略非二元案例 - 您的分类选项是:
- “Cis men and trans men” vs. “cis women and trans women”(如果将“trans man”映射到“man”等)
- “顺式男性、大多数跨性别男性和一些跨性别女性”与“顺式女性、大多数跨性别女性和一些跨性别男性”(如果将“跨性别男人”映射到“女性”等)
恕我直言,这两个中的第一个似乎显然更可取。它可能不是每个应用程序的最佳描述,但至少它的定义相当明确。替代方案只是模糊的。
你的决定真的会影响结果吗?
很可能没有足够的(可识别的)跨性别和非二元性别的人来获取有关“跨性别男性”、“跨性别女性”或“非二元性别的人”类别的任何有用数据。这些群体也很可能非常罕见,以至于它们不会对“男性”和“女性”等较大类别的整体统计数据产生重大影响,无论其定义如何。
如果您不是在谈论开源数据,我还会提出针对小群体的报告的隐私问题,但大概已经考虑过了。
分析的重点是什么?
如果您克服了上述考虑……性别和跨性别身份与您要了解的内容有何关系?这可能与您的决定有关。
我是否应该将它们完全从数据集中删除,因为它们可能会扭曲它?
与跨性别者相比,顺式人士可能对你的结果产生更大的影响。因此,我们是否应该因为害怕扭曲而将顺式人从分析中剔除?
跨性别者是人。如果你的目标是产生关于“人”的整体统计数据,那么跨性别者应该包括在这些统计数据中。如果某些跨性别者不寻常(以任何方式)并且这会影响统计数据,那么统计数据只是反映了某些人不寻常的事实。