当我们需要训练模型但训练数据集真的很小时,有哪些可能的方法?(假设我们有很多数据,只是标注的数据不多)
我知道斯坦福的一个图书馆:https ://hazyresearch.github.io/snorkel/ ,它可以根据一些预先确定的专家规则生成训练标签。(附带问题,有人碰巧知道这个图书馆的数学/统计数据是什么?)
但是,我想知道在无法使用 snorkel 包的情况下,有哪些方法可以标记更多数据进行训练?最大似然估计器可以在这里使用吗?如何实现这样的算法来标记训练数据?
顺便说一句,我正在寻找一种数学方法,而不是像使用 Amazon Mechanical Turk 这样的蛮力方法。
谢谢!