对于国会会议,我创建了一个 doc2vec 演讲模型。使用这个模型中的向量,我有每个国会议员的数据集、他们的政治派别,以及他们发表的每个演讲的向量表示列表。这些文档向量表示中的每一个都是一个 300 个元素的向量。
我现在正在尝试使用这些代表他们演讲的文档向量按政党对每位国会议员进行分类。到目前为止,我已经尝试使用每个说话者的平均向量,但我一直在寻找使用整组向量的方法。
对于国会会议,我创建了一个 doc2vec 演讲模型。使用这个模型中的向量,我有每个国会议员的数据集、他们的政治派别,以及他们发表的每个演讲的向量表示列表。这些文档向量表示中的每一个都是一个 300 个元素的向量。
我现在正在尝试使用这些代表他们演讲的文档向量按政党对每位国会议员进行分类。到目前为止,我已经尝试使用每个说话者的平均向量,但我一直在寻找使用整组向量的方法。
如果我没有得到你的权利,请评论我。我不会选择 doc2vec,因为您不想区分文档而是区分人。所以最好将每个人的演讲连接到单个文档,然后将其提供给 word2vec/doc2vec(我假设您想使用 ANN,否则还有其他选项,例如 TF-IDF 等)这样每个人都会有一个300 维特征向量,包括一切。(我仍然会尝试 TF_IDF 和 CountVectorizer!)
如果您坚持当前的选择,您可能会丢弃人员信息(您想发表演讲并说出演讲者来自哪个政党,对吗?!)并将您的数据设置为 300 维特征向量对于标签是政治观点的每个演讲(而不是取 1 个人的所有演讲的平均值)。然后您的特征向量大小相同(在这种方法中,每个人可能在数据中有多个条目,这可能会使数据产生偏差,因此您可以添加一个包含说话者的列,例如“说话者 a”、“说话者 b”等。在这里你最终得到一个 301-d 数据)。
希望它有所帮助。祝你好运!