我已经完成并读取了一个 csv 文件,然后使用 K-means 绘制了单个列的值
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import style
style.use("ggplot")
from sklearn.cluster import KMeans
data=pd.read_csv(r'Plot_file.csv', encoding='unicode_escape', sep=';')
data.head()
feature_names = ['Plot_Column]
X = np.asarray(data[feature_names])
from sklearn.cluster import KMeans
labels = KMeans(5, random_state=10).fit_predict(X)
plt.scatter(X[:, 0], X[:, 0], c=labels,
s=50, cmap='rainbow');
输出看起来像这样,它是线性的,因为在对一列进行聚类时,它只能查看该列中值之间的相对距离,并且在任何图表上始终是线性的,因为它只聚类一维
在这种情况下,我将如何检测异常?
我从中聚类值的列有大约 12000 行和不同的数字。
