考虑一个无监督数据。数据采用 csv 文件的形式(我为此使用 pandas 数据框)。它是不同时间步长的网页数据,我将数据转换为我的模型(K-means)的方式是将当前网页 ID 加载的时间步长与下一个 web_page ID 加载的时间步长不同。
现在,数据中有一些特征,例如“滚动”(代表人类在该网页上滚动),对于同一个网页 ID,这些特征会多次出现。由于我只使用增量,因此我想将此“滚动”编码为特征的方式是增量之间发生了多少次(时间差)。这给出了频率。
现在的问题是我应该对我计算的这个原始频率进行一些处理,还是可以直接将它提供给我的模型。如果需要更多处理,您有什么建议?