t-SNE
方法不需要删除重复项。它是默认功能这一事实Rtsne
并不意味着它的要求。它对于一些短期事件监控很有用。对于使用大数据集来表征长期趋势和/或模式,我看不到什么用处。Rtsne
默认设置更倾向于在时域中表征事件,而无需在傅里叶域中进行任何研究。
假设您在时域中有点。重复算法会导致大量误报,因为重复检查主要是针对时域信号设计的。傅立叶空间可以表明那些被算法重复考虑的事件是不必要的。
所以我的观察是,该算法对时域中的重复点很贪心,这在考虑长期信号、长期趋势和长期模式时对我没有用处。该点在时域中重复的事实实际上并不意味着它在傅里叶域中也是重复的。我认为如果在现实生活中的应用程序中在时域中出现重复,那将是更多的巧合。所以关掉这个功能应该没问题。要估计有多少点在两个域中真正重复,具体取决于案例研究。通过考虑长期数据集而无需在许多实际应用程序中进行重复检查,我可以更好地描述事件和/或现象。
我认为Rtsne
文档并不清楚[关闭check_duplicates
并] 不要浪费处理能力。确实存在如上所述的其他原因,如check_duplicates
也通过该方法的一些其他实施方式实现的那样,可以将其关闭。目前默认情况下check_duplicates=TRUE
是开发人员的个人选择。Rtsne
我很想知道该决定是否有任何实施原因。