这两种数据格式有什么区别?
例如,对于命名实体识别任务,我了解到索引和BIO 编码是流行的训练数据格式。
它们是否具有不同的机器学习功能,我应该根据训练模型的要求选择输入数据格式吗?
# index representation
"entities": [
{
"name": "John J. Smith ",
"span": [4,8],
"type": "PERSON"
}
# BIO Encoding
Tokens IO BIO BMEWO BMEWO+
Yesterday O O O BOS_O
afternoon 0 O O O
, 0 O O O_PER
John I_PER B_PER B_PER B_PER
J I_PER I_PER M_PER M_PER
. I_PER I_PER M_PER M_PER
Smith I_PER I_PER E_PER E_PER
traveled O 0 O PER_O
to O O O O_LOC
Washington
I_LOC B_LOC W_LOC W_LOC
. O O