我正在从事一个爱好项目,我有一个与financial trades(such as stock trades). 现在我想分析这些数据并提取可能的可疑模式和交易。因为我是数据科学的新手,所以我很想得到一些关于什么是machine learning与这种情况相关的有效算法()的建议。我认为一个类别正在使用一种可能的outlier detection算法,但我无法确定使用哪一个。我也很感激一些与我的方法应该是什么相关的指针。
一些用于识别特定模式的算法和方法?
数据挖掘
机器学习
离群值
2022-02-25 20:37:24
1个回答
我建议,去异常检测:
假设我们的数据具有概率分布(高斯分布),则完成异常检测。我们可以绘制数据以查看是否是这种情况,如果不是,我们可以使用对数变换使其成为高斯。高斯分布指定我们的数据位于这些区域的区域和概率。
例如:替换原始特征 x -> Log(x) 或特征 x -> (x)^4/3 等。
此外,关于决定异常值的阈值,您可以使用它并查看更高的阈值您将拒绝更多条目,这可能是医生试图将癌症患者与许多正常患者隔离而不冒任何风险/机会的情况。同样,这里的异常值并不意味着癌症患者,但绝对值得进行医学检查。如果您将太多正常数据标记为异常值,您可以将其设置为较低的值。
我们有偏斜的数据集,因为我们有比另一种更多的例子。例如,当我们获得飞机发动机数据时,我们可能只有少数坏的数据,大部分是好的数据。建议使用交叉验证数据。F1-Score 是评估算法性能的一个很好的指标。
为了正确掌握这个主题,我还建议观看Andrew NG在 Coursera 上的机器学习中的异常检测课程视频。免费课程,制作精美。
众所周知的技术是:基于密度的技术(k-最近邻)、支持向量机、聚类分析异常检测。人们还使用基于模糊逻辑的技术。对于 python,我建议使用scikit-learn和TensorFlow之类的库,它们具有可用机器学习算法的出色实现。这是来自 googler 的视频链接,给出了相同的概述:https: //www.youtube.com/channel /UCwUtgW0JCPFjLbKx4VVr3bw
其它你可能感兴趣的问题