我正在构建一个神经网络来预测一件具有广泛输入(尺寸、艺术媒介等)的艺术品的价值,我也想将作者作为输入(它通常是一个巨大的单件艺术品的价值因素)。
我目前担心的是,作者的名字不是 NN 的理想数字输入(即,如果我只是用递增的整数值对每个作者进行编码,我将间接地为列表下方的作者分配更多价值-_-) . 我的想法是为我的数据集中的所有作者创建单独的输入,然后只使用一种热编码来更好地表示 NN 的输入。
然而,当我的训练数据中未包含的作者用作 NN 的输入(即新作者)时,这种方法会遇到问题。我可以使用“其他作者”输入字段来解决这个问题,但我担心这会不准确,因为我不会为这个输入训练 NN(所有具有估价的艺术品都有作者)。
我还没有完全考虑到这一点,但我想可能训练 2 个 NN,一个用于没有作者的评估,一个用于有作者的评估,以确保我有足够的训练数据来进行“无作者评估”以保持合理准确。
在我陷入实现之前,我仍在尝试概念化最好的 NN 架构,所以如果有人有任何建议/意见,我将非常感激!
在此先感谢,文斯
PS我这样做是为了与朋友进行一场小型比赛,以测试神经网络与传统的商业估值技术。请帮助我赢得计算机科学胜过精算科学。