我有一个关于我正在考虑用非参数混合方法处理的集群的问题(我认为)。我正在研究人类行为的解释。
我的数据库的每一行都包含:
- 某人的身份证
- 环境X的一些参数(例如:温度、风等)
- 一个二元变量Y,表示人对参数的反应(例如:生病或不会因为天气而生病)。
我的想法(基于直觉而不是数据)是我们可以将人们聚集在有限数量的组中,以便在一个组中,人们对温度有相同的反应(有些人很容易生病,有些人从不生病......) . 在给定的组中,更正式地说,以参数X为条件的Y定律是相同的。
我不知道以X为条件的Y定律。对于参数X,如有必要,我可以做一些假设。
我想创建一些“或多或少”对参数有相同反应的人。此外,我想预测给定人对给定参数值的反应(即使该事件从未在数据库中发生过)。
在我看来,我们可以将问题视为非参数混合模型。由于我对Y的条件定律没有假设,我想我将不得不使用 kernels 方法来创建它。我找到了这篇论文。此外,在我看来,在这种情况下,每一行观察不是一些随机变量的简单实现,而是是一个随机变量的实现,并且是一个随机变量的实现,条件是. 我不知道这是否有区别。
我有大约 100000 行。向量有一些离散的组件,而其他的则是连续的。我想知道:
- 我的方法正确吗?
- 你会为这个问题提出另一种观点吗?
我会对有关它的任何参考资料非常感兴趣。
不要犹豫,让我重新制定问题陈述。