机器算法验证 - 使用临界值对生物标志物进行二分法真的那么糟糕吗？ - 吾爱随笔录

使用临界值对生物标志物进行二分法真的那么糟糕吗？

机器算法验证分类分类数据生存连续数据预测器

2022-03-26 19:21:10

组织微阵列通常用于评估潜在的预后生物标志物。几十年来，许多作者（我什至会说大多数人）认为有必要对他们的连续预测因子进行分类，或者通过数据收集后的二分法，或者通过使用预先分类的评分系统（例如 Allred 和免疫反应评分）。

这种方法的缺陷很多，并且多年来一直被强调。道格拉斯·奥特曼和帕特里克·罗伊斯顿是最直言不讳的批评者，还有像弗兰克·哈雷尔这样的预测模型专家。

我完全同意他们的论点，但这在实践中真的重要吗？对二分法或连续预测因子分类的常见辩护是，它极大地简化了临床决策。事实上，医生可能不得不权衡本质上是二元选择——治疗还是不治疗；或向患者提供一种或另一种预后——因此人们认为应该将预测因素二分法来反映这一点。然而，我认为保持预测变量的连续性可以获得更细粒度的信息，并降低对预测值刚好高于或低于任意阈值的患者进行错误分类的风险。

然而，无数的临床决策是根据分类的预测因子做出的。例如，评估乳腺癌患者的雌激素、孕酮和 HER2 表达状态，并根据某个阈值将其分类为受体阳性或阴性。尽管这种方法可能不是“统计上合理的”，但它在指导治疗决策方面的广泛使用肯定表明分类至少有些用处？

2个回答

这真的很糟糕，正如帕特里克和我的许多著作中所详述的那样。考虑一下这些方式，对于初学者来说：如果你对标记进行分类，那么信息的丢失是如此之大，以至于你需要收集更多的标记来弥补损失。为什么不从单个标记中获取最多信息呢？然后是一个问题，很容易证明标记的阈值是所有其他预测变量的连续值的函数。请参阅BBR中的信息丢失章节。例如，如果患者的性别是影响疾病可能性的重要因素，您会发现女性和男性需要不同的生物标志物阈值。

分类简化了决策，但只会使决策变得更糟。许多事情似乎只是因为它们是错误的而变得简单。

我们被教导评估模型的拟合优度。假设生物标志物和结果之间存在分段平坦关系的模型很容易被证明对数据的拟合不佳。例如，查看分段平面模型（即使用阈值处理的模型）和灵活但无处不在的平滑模型的对数似然。

尽管公认的生物标志物值的截止值对于在单个人群中建模没有帮助（在此基础上对 Frank Harrell 的回答 +1），但当它们与广泛的主题知识一起，它们可以描绘从不同的人群中受益的根本不同的人群时，它们是有意义的。治疗。在这种情况下，测试可以以高概率对大多数情况进行分类（基于单独的高和低截止值），同时将中间情况分配给进一步测试或更谨慎地应用结果。乳腺癌是 OP 的例子，其中肿瘤被评估为雌激素受体 α (ER)、孕激素受体 (PR) 和人类表皮生长因子受体 2 (HER2)，就是这种情况。

此六边形图说明了 1093 例原发性乳腺癌中 HER2 与 ER 表达的二维分布，基于癌症基因组图谱的RNA 测序数据。注意两个轴上的对数刻度。

ER 和 HER2 的密度图使类别区分更加清晰。

ER 显示出明显的双峰分布，其模态值相差2 个数量级，少数肿瘤具有中间值。HER2 值显示一个主峰，涵盖约 90% 的肿瘤，但约 10% 显示显着更大的表达，比主峰高20 倍。

数十年的临床和实验室研究表明，这些分布代表了根本不同的乳腺癌生物学类别，由不同的致瘤过程驱动，并且对不同类型的治疗反应最好。例如，关于 HER2（也称为 ERBB2）高表达的肿瘤，维基百科总结：

扩增，也称为 ERBB2 基因的过表达，发生在大约 15-30% 的乳腺癌中。它与疾病复发增加和预后不良密切相关；然而，在乳腺癌中靶向 HER2 的药物显着改变了 HER2 阳性乳腺癌原本预后不良的自然病程……HER2 是单克隆抗体曲妥珠单抗（以赫赛汀销售）的靶标。曲妥珠单抗仅对 HER2 过度表达的癌症有效。

同样，具有高 ER 表达的患者可以从中断由雌激素介导的细胞信号通路的“内分泌治疗”中受益。但六边形图左下方的病例代表“三阴性”乳腺癌，ER、PR 和 HER2 均较低，对针对雌激素信号或 HER2 信号的疗法没有反应。* 他们需要不同的疗法。

在实践中，ER、PR 和 HER2 的表达是通过免疫组织化学(IHC) 在蛋白质水平上评估的，而不是通过为该图提供数据的 RNA 测序来评估。IHC 最多只能对蛋白质表达进行半定量评估。例如，OP 引用的 Allred 评分将 IHC 染色的强度和程度组合成一个8 点量表。

然而，鉴于高表达和低表达肿瘤之间在这些特定蛋白质水平方面的巨大差异，通常可以根据 IHC 将肿瘤归为生物学上不同的类别之一。美国病理学家协会(CAP)目前的建议是使用肿瘤细胞核显示 ER 表达的百分比作为标准，肿瘤小于 1% 称为 ER 阴性，而那些肿瘤细胞核大于 10% 称为 ER 阳性。在该范围内具有 1% 至 10% 的肿瘤被报告为“ER 低阳性”，并特别注意可能基于该发现的治疗选择。HER2 的类似指南提出了另一种检测方法，原位杂交，当 IHC 结果模棱两可时。

在这方面，实践中的行为遵循 Harrell 在回归建模策略第 258 页所说的：“医生有时声称需要二元决策模型，但如果给定概率，他们将正确地应用不同的阈值来治疗不同的患者或订购其他诊断测试。” 根据临床结果研究，CAP 指南确定了正确分类可能性高的表达水平，并建议进一步测试并谨慎行事。

最后，基于 ER、PR 和 HER2 表达的分类只是选择治疗时考虑的一部分。这些因素与肿瘤的组织学外观和大小、是否扩散到淋巴结或以外、进一步的基因表达或基因测试以及患者对乳房保留的偏好一起考虑，以选择手术、放射和术前和辅助（手术后）药物治疗。国家综合癌症网络基于这些考虑出版了一本 200 多页的《乳腺癌治疗指南》，记录了其建议背后的证据水平，并引用了 700 多篇文献。

数据和代码：

从Firebrowse中，为乳腺癌选择 BRCA，单击该mRNASeq栏，然后选择illuminahiseq_rnaseqv2-RSEM_genes_normalized。仅限于原发性肿瘤（样本类型 01）。放入一个数据框，这里称为brcaRNAseqPrimDF. 然后在R中：

library(ggplot2)
## for hexbin
ggplot(brcaRNAseqPrimDF, aes(x=ESR1.2099, y=ERBB2.2064)) + scale_x_log10() + scale_y_log10() + geom_hex(bins=50) + xlab("ER") + ylab("HER2") + theme(aspect.ratio = 1)
## for density plots
pHER2 <- ggplot(brcaRNAseqPrimDF,aes(x=ERBB2.2064))+scale_x_log10()+geom_density()+xlab("HER2")+geom_rug(alpha=0.2)
pESR1 <- ggplot(brcaRNAseqPrimDF,aes(x=ESR1.2099))+scale_x_log10()+geom_density()+xlab("ER")+geom_rug(alpha=0.2)
library(gridExtra)
grid.arrange(pESR1,pHER2,ncol=2)

ESR1 是雌激素受体α。ERBB2 是目前公认的 HER2 名称。

*为简单起见，我没有尝试加入第三种经典免疫组织化学标记物前列腺素受体，因为基本上所有低 ER 病例也具有低前列腺素受体表达（数据中称为 PGR.5241）。

其它你可能感兴趣的问题

上一篇二元分类变量的 AUC 的有效性下一篇为什么存在异常值时 t 检验会产生不显着的 p 值？