我正在运行二进制 logit 回归,我知道因变量在一小部分情况下被错误编码。所以我试图在这个模型
但不是向量,我有,其中包括一些随机错误(即,但,反之亦然,对于一些)。
这个问题有(合理的)简单的更正吗?
我知道 logit 在病例对照研究中有一些很好的特性。似乎类似的东西在这里适用,但我一直无法找到一个好的解决方案。
其他一些限制:这是一个文本挖掘应用程序,因此的维度很大(数千或数万)。这可能会排除一些计算密集型程序。
另外,我不关心正确估计,只。
我正在运行二进制 logit 回归,我知道因变量在一小部分情况下被错误编码。所以我试图在这个模型
但不是向量,我有,其中包括一些随机错误(即,但,反之亦然,对于一些)。
这个问题有(合理的)简单的更正吗?
我知道 logit 在病例对照研究中有一些很好的特性。似乎类似的东西在这里适用,但我一直无法找到一个好的解决方案。
其他一些限制:这是一个文本挖掘应用程序,因此的维度很大(数千或数万)。这可能会排除一些计算密集型程序。
另外,我不关心正确估计,只。
这种情况通常被称为错误分类错误。本文帮助您正确估计。编辑:我使用http://www.google.com/search?q=misclassification+of+dependent+variable+logistic找到了相关的论文。
您可以使用 MLE 估计误差的参数模型,也可以使用基于最大秩相关 (MRC) 估计器之类的半参数方法。在计算上,MRC 对大样本来说是禁止的,所以看起来 MLE 对我来说是正确的方法。
感谢 GaBorgulya 提供了一些好的、及时的指导,尤其是关于“错误分类错误”这个词。
以下是有关该主题的一些很好的资料: