t-Distributed Stochastic Neighbor Embedding (t-SNE) 是一种(获奖的)降维技术,特别适合高维数据集的可视化。
所以这听起来很不错,但那是作者在说的。
你从这场比赛中收获了什么?
在开始训练数据的预测器之前,始终首先可视化您的数据!通常,我所做的可视化可以提供对数据分布的洞察,这可能有助于您确定要尝试哪种类型的预测模型。
信息一定 会丢失——毕竟这是一种降维技术。但是,由于这是一种在可视化时使用的好技术,因此丢失的信息不如突出显示的信息有价值(/通过减少到 2 或 3 维使其可见/可理解)。
所以我的问题是:
- 什么时候 tSNE 不适合这项工作?
- 什么样的数据集导致它无法运行,
- 什么样的问题它看起来可以回答,但实际上不能?
- 在上面的第二个引用中,建议始终可视化您的数据集,这种可视化是否应该始终使用 tSNE 完成?
我希望这个问题可能会在相反的情况下得到最好的回答,即回答:tSNE 什么时候是适合这项工作的工具?
有人告诫我不要依赖 tSNE 来告诉我数据分类的难易程度(分成几类——一个判别模型) 它具有误导性的例子是,对于下面的两张图片,生成模型2更糟对于第一个/左侧(准确度 53.6%)中可视化的数据,第二个/右侧(准确度 67.2%)的等效数据。
1 我可能错了,稍后我可能会坐下来尝试一个证明/反例
2 请注意,生成模型与判别模型不同,但这是我给出的示例。