人工智能 - 如何使用生成对抗网络生成用于发展分析的图像？ - 吾爱随笔录

人工智能机器学习生成对抗网络

2021-10-25 02:16:08

我想生成符合特定年龄儿童发育状态的儿童绘画图像。训练数据集将包括真实儿童在学校环境中绘制的图画。生成的图像将用于发育分析。

我听说生成对抗网络是解决这类问题的好工具。如果这是真的，我将如何将 GAN 应用于这个挑战？

2个回答

生成对抗网络可能不是生成所需图像的最佳方法。我们可以从评论中假设没有收集数据。这是一件好事，因为一组标有学生年龄或年级的光栅化图像是一种较差的输入形式。

似乎已经计划或已经协商了对学生群体的访问，这也很好。

虽然绘画是通过每个学生的眼睛看到的，但与绘画技能发展相关的主要特征是运动控制、形状形成和颜色选择。如果将纸放在绘图板上，则绘图板的传入 USB 流事件将被捕获到文件中，并且颜色选择会以某种方式记录或通过让学生在使用前将铅笔或蜡笔靠近计算机的摄像头来自动确定，可以开发出更好的自然输入流。

预处理可以导致将每个绘图体验表达为按时间顺序排列的事件序列，每个事件具有以下维度。

可以使用 LSTM 方法从相机输入中确定颜色。

这些序列中的每一个的标签维度将是那些与发育阶段最密切相关的人口统计和排名。

附加到序列中每个元素的微观分析包括这些附加维度。

器具的拉丝速度由下式给出 $r = \frac {\sqrt{(x - x_p)^2 + (y - y_p)^2}} {t - t_p}$ 其中下标 p 表示从序列中的前一个事件中提取的值。
绘制方向由 $\theta = \arctan (x - x_p, \; y - y_p)$
曲率 $\kappa$ 使用三次样条或其他一些数据拟合方法计算
FFT频谱 $\vec{a}$ 和李雅普诺夫指数 $\lambda$ 应用于自相关结果

这是对 Google 用于合成语音的系统的修改，基于 WaveNet 设计。在图中，残差函数定义如下。

$z = \tanh \, (W_{f,k} x + V_{f,k} y) \, \odot \, \sigma \, (W_{g,k} x + V_{g,k} y)$

所需的发展是 $\vec{a}$ 现在必须伴随标量 $r, \theta, \kappa, and \lambda$ , 但最终的图纸可能具有示例的许多手眼发育特征。

我认为你的任务如下。

$\$

让我们假设 5 岁的孩子。

您有许多由他们绘制的图片。（让，这些图片是你的[训练集]。）

并且，你想用训练集合成相似的图片。

因为你需要更多的照片来学习。

我对吗？

$\$

行。

从图片中，您想提取一些关于绘制它们的真实孩子的有意义的信息，对吗？

那么，我认为 GAN 对你的研究并不忠实。

当然，GAN 可以用你的训练集制作非常相似的图片。

但是，这并不意味着合成的图像可以包含您想要的东西！

GAN 只是合成无法与您的训练集区分开来的“假图片”。

合成的图片可能没有任何有意义的东西。

因为它不是由真正的孩子绘制的。

$\$

但这是值得的。

May GAN 捕捉到了一些“像孩子一样”的特征。（但我认为这太难了。）

你可以找到很多 GAN 用于你的研究，尤其是 DCGAN。

其它你可能感兴趣的问题