我有一个键值形式的数据集。基本上是多对一映射中的两组整数。就像 f(123) 对应 4652,f(24) 对应 12 等等。该数据集的大小约为 10^7。
这太大了。所以我的想法是在某个模型上训练这个数据集并只存储训练模型的参数,所以当我必须回答说 f(24) 时,我可以将 24 作为输入传递给我的模型并打印模型的输出。我的想法是在数据集上过度拟合某些模型可能会导致超过 99% 的高精度。我严格希望参数的大小小于 50,000 字节。
我尝试制作香草神经网络,但错误百分比太高了。我发现一个有趣的博客尝试与我相同的方法。如果您在评论中有不清楚的地方,请告诉我。
具体示例问题
给你一个我正在尝试的具体例子。这是DataSet,第 i 行将 f(i) 存储在此文件中。我正在尝试制作一个 50k 字节的代码并且可以回答查询 f(i)。当然,训练时没有限制,但训练后它应该是一个最大长度为 50k 的文件。