数据挖掘 - 命名实体识别 (NER) 功能 - 吾爱随笔录

我是命名实体识别的新手，我在理解此任务中使用什么/如何使用功能时遇到了一些麻烦。

到目前为止，我读过的一些论文提到了使用的特性，但并没有真正解释它们，例如在 CoNLL-2003 共享任务简介：语言独立命名实体识别中，提到了以下特性：

参与 CoNLL-2003 共享任务的 16 个系统使用的主要特征按英语测试数据的性能排序。Aff：词缀信息（n-grams）；bag：词袋；cas：全球病例信息；chu：块标签；doc：全局文档信息；gaz：地名录；lex：词汇特征；ort：正字法信息；pat：正交模式（如 Aa0）；pos：词性标签；pre：之前预测的NE标签；quo：标记单词在引号之间的标志；tri：触发词。

但是，我对其中的一些感到有些困惑。例如：

词袋不应该是一种生成特征的方法（每个词一个）吗？BOW 本身怎么可能是一个特征？或者这仅仅是意味着我们在 BOW 中的每个单词都有一个特征，除了提到的所有其他特征？
地名录怎么能成为特色？
POS 标签如何准确地用作特征？我们不是每个单词都有一个 POS 标签吗？每个对象/实例不是“文本”吗？
什么是全局文档信息？
什么是特征触发词？

我认为我在这里所需要的只是查看一个示例表，其中每个功能都作为列，并查看它们的值以了解它们的实际工作方式，但到目前为止，我还没有找到一个易于阅读的数据集。

有人可以澄清或指出一些正在使用的这些功能的解释或示例吗？