该数据集是否正确分析?
TL;博士
虽然数据来自《纽约时报》并且看起来是合法的,但该演示文稿是故意误导的,随后的断言是毫无根据的。我说“故意”是因为公正且信誉良好的分析不会从他们提供的数据中传播如此重大的指控。数据并不能证明或反驳选民欺诈,因此毫无根据的断言只是虚假信息。
在深入研究数据之前
在接下来的几个月和几年中,我们将看到更多这样的线程/帖子,所以我需要在深入研究这个问题之前解决这个问题。
每当您在线查看任何内容时,请考虑以下事项:
- 假新闻比真新闻更具有病毒性!始终保持谨慎。
- 消息来源可信吗?在这种情况下,您没有理由相信随机推特用户“CulturalHusbandry @Aphilosophae”。
- 其他可靠来源是否证实了这些发现?您对调查结果的信心应该随着每个得出相同结论的独立可靠来源而增加。在这种情况下,我们没有可靠的来源。
- 语言是否受到指控,言辞是否具有阴谋性?不幸的是,这正成为虚假宣传活动的一个突出危险信号,这些活动旨在散播对民主制度的怀疑和不信任。
这个 Twitter 线程如何是虚假信息(逐步)
1. 错误前提
他/她首先确定了这样一个事实,即总体而言,批次的选票并没有明显地支持一个或另一个候选人(他们通过下面的推文这样做)。投票批次中 D/R 比率随时间的分布未反映在此汇总图中。但是,这可能会误导观众相信他们应该期望在整个计票过程中民主党/共和党的一致性为 50/50,而这不能从这些信息中假设。“匿名数据科学家”似乎通过将此作为他/她的前提并将他/她的后续推文发布到情节(下图)来鼓励这种逻辑谬误。
2. 误导性的可视化
然后,他/她确定初始计数是“随机的”并且是嘈杂的,正如人们对 50/50 拆分所期望的那样。但是,这些批次没有与之关联的大小!一个“批次”可能是 100K 票,也可能少于 10 个。对数据的实际信息描述会使圆/点的大小反映批次(气泡图)的大小,而不是散点图。虽然这个图在技术上可能是准确的,但这仍然可能会产生很大的误导,特别是因为“匿名数据科学家”没有注意到这个缺陷(缺少批量大小信息)。但是为了争论,让我们一起去吧。
3. 未经证实的主张和忽视合法的可能性
现在他们开始谈论“异常”并提出阴谋指控。考虑到密尔沃基在某个时间点每批次的 D/R 比率,他们注意到了向 D 的跳跃。对此有许多合理的解释。
例如,像城市这样的高/密集人口(可能倾向于民主党)当然会花费更多时间来收集/计算选票,因此他们可能要等到人口稀少(可能倾向于共和党)之后才开始报告. 这可能会导致民主党突然支持民主党。
此外,早期的大多数选票都支持共和党。这是可以预料的;当然,一直试图使邮寄选票合法化的候选人会从他的追随者那里收到更少的邮寄选票。相比之下,民主党人被鼓励通过邮寄投票(他们确实这样做了),这使得后来的邮寄投票数倾向于民主党。这是另一个因素,可以解释为什么与最终计票相比,大多数州的初始票数偏向共和党。
我阅读了线程,但没有分析数据。
很难以任何结论性的方式回答这个问题:假设图表是正确的,解释它们是一个高风险/主观的游戏,因为有很多隐藏的因素:在不同时间、不同地点、不同人口收集选票的方式密度,根据不同的州法律和程序...
我只想强调,在统计学中,“异常”一词仅描述偏离规范(常规模式)的数据点。请注意,这是一个非常模糊的概念(异常离规范有多远?),更重要的是,统计分析本身并不能解释异常发生的原因,它只能检测到它们。解释必须依赖于通常称为“专家知识”的东西,即数据本身不存在的迹象,通过对数据如何获得的人工分析获得。
关联分析具有很强的解释性,并且可能存在偏见:
- 几乎所有州的“从 D 到 R 的轻微漂移” “可能是由于偏远的农村地区拥有更多的 R 选票。这些偏远地区需要更长的时间才能将选票运送到投票中心。” 此解释基于专家知识,非专家无法检查其有效性。
- 威斯康星州的转变被解释为“威斯康星州时间凌晨 3 点左右,新一批 169,000 份新的缺席选票到达。他们应该停止接受新选票,但是,不管我猜什么。” 人们可能会再次注意到外部知识的使用(并暗示发生了一些非法事情)
- 这种情况的解释看起来像取证分析:“很可能是通过回溯或选票制造或软件篡改向批次中添加了额外的选票。这类似于碳 14 测年,但为了选票批次的真实性。” 然而,所有这些都是假设的,可能还有其他解释。
- 关于宾夕法尼亚州的转变:“但随着计票的继续,邮寄选票中的 D 与 R 比率莫名其妙地开始“增加”。同样,这不应该发生,而且在该国其他地方几乎没有观察到,因为所有的选票是随机打乱的……”说这种转变是“莫名其妙的”是解释性的:一个只是没有解释,这并不意味着没有一个。“选票随机洗牌”:据我所知不是:选票是按县收集的,不同的县可以有不同的分布。
- ...
我的观点是:仅仅从数据上无法知道这种分析是否正确,作者的大部分结论都是基于外部解释。