机器算法验证 - 未能对真实数据集进行线性回归/预测 - 吾爱随笔录

我有一个数据集，我正在尝试对其进行回归，但失败了。

情况：

例如：

因此，我可以估计机器人 A 每场战斗可能造成 10 单位的伤害 A，而机器人 B 每场战斗造成 100 单位的伤害 A，因此如果被要求估计仅玩过两个机器人中的每一个的 Matthew 造成的伤害 A每场 2 场战斗，估计 220 == (10*2 + 100*2)。

不幸的是，真实的数据并不那么干净和直接，可能是因为：

真实数据集可在此处获得（已知战斗操作员结果的 630k 个条目）：

数据集组织如下，每行一个机器人操作员条目：

没有标签的第 1 列 - 操作员 ID
战斗 - 此操作员参与的战斗总数
胜利 - 此操作员赢得的总战斗次数
失败 - 此操作员输掉的总战斗次数
伤害A - 造成的总伤害A点
damageB - 造成的总伤害 B 点数
130对列如下：
- Battles_[robotID] - 使用机器人 [robotID] 进行的战斗
- victories_[robotID] - 使用机器人 [robotID] 获得的胜利

到目前为止我所做的：

使用 R 包尝试了几个线性模型biglm，这些模型构建了一个公式，例如damageA ~ 0 + battles_1501 + battles_4201 + ...尝试为每个机器人获得拟合的“预期”值。
0 +相同，但通过不包括在公式中来删除强制原点拦截
相同，但也包含victories_[robotID]在自变量中
和以前一样，但只选择那些胜利数字接近失败数字的机器人操作员
一个线性回归模型，用于除机器人模型 1501 之外的所有机器人中的所有战斗。然后对所有其他机器人类型重复damageA ~ 0 + battles_1501 + battles_non_1501。battles_non_1501

我通过查看预测的damageA和damageB值进行了完整性检查，并将胜利/战斗比率与我们实际上可以为每个机器人精确计算的实际胜利/战斗比率进行比较。

在所有情况下，虽然结果并未完全关闭，但它们已经足够关闭，可以看出该模型无法正常工作。例如，一些机器人获得了不应该真正发生的负伤害数字，因为你不能在战斗中造成负伤害。

如果我还在victories_[robotID]公式中使用了已知值，许多battle_[robotID]系数最终会变成有点大的负数，所以我尝试估计“平均”运算符，battle_[robotID] + victories_[robotID] / 2但这也没有给出合理的结果。

我现在有点想不通了。