我正在研究我的第一个关于分类的 ds 问题。我有端到端的过程,但除了条形图和饼图之外没有太多可视化。
我想看看样本数据集本身的类是如何区分的,以发现样本数据中的异常或查看样本有多少异常值。
我在许多文章、论文和书籍中看到了许多很好的散点图聚类,它们主要基于数字特征。以下内容来自 scikit learn:http ://scikit-learn.org/stable/auto_examples/datasets/plot_random_dataset.html
但是,其中大多数是针对数字特征的。如何为文本特征绘制类似的图?
我可以做到的一种方法是将所有特征转换为向量;在 x 轴上绘制所有索引(令牌索引),在 y 轴上绘制它们各自的指标(TF 或 TF-IDF)?但是有这么多的功能!?
另外,如何在不将它们转换为向量的情况下以这种聚类格式分析原始样本数据。我可以进行标记化和一些基本的规范化。
例如我的示例数据是文本、类别
"chiense restarant near me", chinesefoodlover
"japanese food near me", japanesefoodlover
我可以把它分解成
[chiense, restarant, near, me], chinesefoodlover
[japanese, food, near, me], japanesefoodlover
但是然后如何从那里绘制类集群。
