我正计划训练一个 NER 模型,我已经有一个大型语料库,但我确实找到了一个更大的语料库,我非常有信心我可以获取更多的语料库并根据我的需要格式化其数据。
假设所有数据集最终都采用相同的格式并且没有任何不一致,那么连接所有数据集是否有意义?
或者模型是否会在某个时候收敛?这有意义吗?我还会遇到什么其他问题?
我正计划训练一个 NER 模型,我已经有一个大型语料库,但我确实找到了一个更大的语料库,我非常有信心我可以获取更多的语料库并根据我的需要格式化其数据。
假设所有数据集最终都采用相同的格式并且没有任何不一致,那么连接所有数据集是否有意义?
或者模型是否会在某个时候收敛?这有意义吗?我还会遇到什么其他问题?
数据越多越好。假设它们具有相同的格式,将所有数据集连接成一个更大的数据集是 100% 有意义的。这很可能会提高模型的性能。
连接后,您始终可以根据它们的排名和重要性进行特征选择。这样,您可以确定是否包含新数据集。