正如标题所示,有没有人知道一本涵盖一般数据预处理,尤其是异常值检测技术的优秀、最新的书?
这本书不需要专门关注这一点,但它应该详尽地处理上述主题 - 我不会对作为起点并引用论文列表的东西感到满意,对各种技术的解释必须出现在书本身。
处理丢失数据的技术更可取,但不是必需的......
正如标题所示,有没有人知道一本涵盖一般数据预处理,尤其是异常值检测技术的优秀、最新的书?
这本书不需要专门关注这一点,但它应该详尽地处理上述主题 - 我不会对作为起点并引用论文列表的东西感到满意,对各种技术的解释必须出现在书本身。
处理丢失数据的技术更可取,但不是必需的......
虽然特定于 Stata,但我发现 Scott Long 的书The Workflow of Data Analysis Using Stata在数据管理和准备领域非常宝贵。作者就数据管理的良好实践提供了许多有用的建议,例如清理和归档数据、检查异常值和处理缺失数据。
对于 SAS,有 Ron Cody 的使用 SAS 软件的数据清理技术。SAS-L 上有一句谚语:“Ron Cody 的书永远不会出错”
如果您具有取决于主题的基础知识(识别异常值、缺失值、加权、编码),那么可以在简单的学术文献中找到更多内容。例如,在调查研究中(这是一个很多事情都可能出错的话题,并且容易产生许多偏见),有很多好的文章可以找到。
在准备常规横断面回归时,事情可能不那么复杂。例如,可能存在的问题是您删除了太多“异常值”,从而人为地拟合了您的模型。
因此我也建议你除了学习好的技术外,还要记住常识。确保正确地而不是盲目地应用这些技术。至于其他答案中的软件讨论。我认为 SPSS 在数据准备方面还不错(我也听说过关于 SAS 的好消息),具体取决于您的数据集大小。下拉菜单非常直观。
但作为对您问题的直接回答,学术文献可能是也可能不是您的数据准备的一个很好的来源,具体取决于主题和分析。