完全披露我在 StackOverflow 上问了这个问题,但它被删除了,因为它更多的是我该怎么做,而不是我如何编写这个问题:
我正在尝试模拟/伪造我最终希望在现实世界中收集的数据。
我将在同一个单变量时间序列中记录 4 个不同的信号。每个信号都是唯一的,有助于最终模型的分类能力。
此外,我将能够将这些数据集中的每一个分类为 10 个类之一。
我正在尝试利用 sklearn 生成数据,但只能获取每个特征的标量值。有没有办法通过分类生成类似于我上面的假信号图的东西?
我的第一遍是通过 numpy 创建随机数据,但在将其放入任何类型的模型后,它无法找到任何合适的:
y = np.random.randint(n_classes, size=num_samples)
X = np.random.normal(size=(num_samples, n_dims))
理想情况下,我希望数据在像 t-SNE 这样的降维视图中绘制时会有如下集群:

有什么建议我可以做到这一点吗?我最初的想法是使用 sklearn make_classification 为基本上是种子的每个波形生成一个标量值,但我认为可能有一种更简单和更正确的方法。
