tl;博士
discrete
在执行异常检测时,推荐的数据处理方法是什么?categorical
在执行异常检测时,推荐的数据处理方法是什么?- 这个答案建议使用离散数据来过滤结果。
- 也许用观察概率替换类别值?
介绍
这是我第一次在这里发帖,所以,如果有什么在技术上看起来不正确,无论是在格式上,还是在使用正确的定义上,我很想知道应该改用什么。
向前。
我最近参加了 Andrew Ng的机器学习课程
对于异常检测,我们被教导要确定数据集中给定特征/变量的正态/高斯分布参数是什么,然后确定一组选定的训练示例/观察值的概率特定的高斯分布,然后取特征概率的乘积。
方法
选择特征/变量:
为每个特征拟合高斯参数:
对于每个训练示例,计算:
然后我们标记为异常(),给定:
这为我们提供了确定示例是否需要进一步检查的方法。
我的问题
这对于连续变量/特征似乎很好,但没有解决离散数据。
虚拟变量怎么样,例如性别标志特征,可能被称为[IsMale]
值?为了考虑一个虚拟特征,我们会使用二项分布来计算吗?
诸如汽车颜色之类的分类数据呢?虽然我们可以将颜色映射到数值,例如,但这种分类特征的分布可能接近于均匀(即同样可能是任何颜色),并且更进一步,任何发生的数值映射(即的值为等)不是有序的,尝试将任何非正态频率分布转换为正态分布的颜色是否有意义(它不是有序的甚至重要吗? ?)? 例如,对我来说,进行转换是没有意义的,因为数据既不是连续的也不是有序的。所以也许最好找到一个离散分布适合该功能,而不是“折磨”数据以适合高斯?
问题:(更新:2015-11-24)
二元变量是否可以用二项式概率分布建模并成为计算中的另一个因素?分类变量是否应该用离散概率分布而不是高斯分布建模,并成为计算中的另一个因素?是否有另一种方法完全考虑到我在这里要进一步研究/了解的问题?discrete
在执行异常检测时,推荐的数据处理方法是什么?categorical
在执行异常检测时,推荐的数据处理方法是什么?
编辑:2017-05-03
- 这个答案建议使用离散数据来过滤结果。
- 也许用观察概率替换类别值?