我有一个本质上是概率的数据集。例如,如果一条记录有 d 个特征,那么, ..., 是这样的,它们的总和加到 1。换句话说,对于每个 数据记录(行)
我想应用线性回归模型来预测变量 .
我的问题是:
- 线性回归可以用于此类数据集吗?我可以使用哪些其他型号?
- 我应该放弃一项功能(一些 ) 从每个数据记录中,因为我可以通过使用 1 - summing prob(remainingfeatures) 轻松计算丢弃特征的值。
- 当我使用线性回归时,所有自变量(, ) 的值 < 1(因为概率),因变量不是。我应该使用 相反(因为权重 为了 计算会很大)?
理想情况下,我将梯度下降应用于凸优化问题。可以是这样属于某个未知的分布,就我而言,我知道那个分布。但是,如果他们有替代模型,请建议。