numer.ai 如何预测未来?

机器算法验证 机器学习 分类 预测模型 金融 火车
2022-04-17 09:17:05

Numer.ai是一个众包对冲基金,它使用其用户的个人分类器来预测未来的资产价格。

他们自己并没有提供很多关于它是如何工作的信息。那里有几篇文章(第 1条,第 2 条reddit)。我的理解方式如下:

他们获取适当的现实世界金融数据并使用同态加密对其进行加密。同态加密是一种映射方法,它可以通过对加密数据的分析,得出对原始数据的结论。他们将数据分成训练数据集测试数据集

训练数据的形状(96320, 22)21标准化特征列,无索引和二进制标签目标。测试数据的形状(36072, 21)21归一化特征和未排序索引t_id

这个想法是基于训练数据开发一个分类器,然后提交你对测试集的预测。如果您的分类在测试集上表现良好并且您的算法是原创的(多样化),他们会以比特币支付给您。Kaggle不同,您无需上传代码。

在这个问题上抛出了几个标准算法,我想出了一个日志丢失0.6930这不会让你接近最高排名

我的问题是:他们如何从中赚钱?

如果加密数据基于历史股票价格、金融基础数据或任何其他现实世界时间序列数据(我假设您将需要任何类型的量化交易),您如何在没有访问我的分类器的情况下预测未来资产价格?你能从我对训练数据集或测试数据集(最近距离)的分类中推断出来吗?考虑到数据集的维度,这似乎不太可能。您必须查看最新的数据点并将它们放入分类器中。我认为这不是庞氏骗局,因为他们拥有具有量化交易背景的成熟投资者。

2个回答

如果您对测试数据集中的 t_id 列进行排序,您会看到它的范围是 1-36000。我会假设它指的是“贸易ID”。金融时间序列预测的工作方式是您通常在时间t-1获取特征的滞后值并使用它们来预测时间t的目标值,因此我假设 1-21 中的所有特征都是滞后值前一周,目标变量必须是特定交易 ID 的价格上涨/下跌。

如果您查看算法输出的概率,您会发现它们通常在 0.45-0.55 或类似的范围内,因此它不是很精确,但是您仍然比随机结果稍有优势。这解释了 36000 的大型测试集,为了挤压你需要进行大量交易的小优势。Renaissance Technologies(可以说是最好的量化基金)在这里提到他们在预测价格方面有非常小的优势,但他们通过大量交易来利用它+他们使用大量杠杆来提高这些回报。我会假设 Numerai 正在做类似的事情。

你给他们你的预测,而不是你的分类器。

他们正在降低一个领域的进入门槛,而不是所有领域。当然,您可以创建自己的基金或将您的分类器出售给其他公司,但是(或者我认为)按照他们的思维过程和商业模式,他们通过激励提供的竞争将导致他们领先(或至少与最好的人并列),因为每个人都会被激励与他们分享他们对未来的预测。