当用作特征提取器时,对于给定文档,BERT 嵌入是否始终相同

人工智能 机器学习 自然语言处理 词嵌入 伯特
2021-11-13 13:34:23

当我们使用 BERT 嵌入进行分类任务时,每次我们通过 BERT 架构传递相同的文本时,我们会得到不同的嵌入吗?如果是,是否将嵌入用作特征的正确方法?理想情况下,在使用任何特征提取技术时,特征值应该是一致的。如果我们希望 BERT 用作特征提取器,我该如何处理?

1个回答

BERT 是确定性的。除非您在后续运行中以不同方式解析令牌,否则不会有任何变化。这是模型架构基于Transformer Paper的原始论文。请注意,在每一层中,大部分使用的唯一操作是矩阵乘法、连接、基本操作和层归一化,所有这些都是确定性的。