我想在项目中使用推特数据集,推文内容如下所示:
tweet_ID tweet_text
12324124 some text here that has been twitted bla bla bla
35325323 some other text, trump, usa , merica ,etc.
56743563 bla bla text whatever tweet bla bla
现在我想最终得到一个包含 tweet_ID 和一些矢量编码的文件。我正在阅读有关 BERT、ROBERTA 等的信息。有没有办法在不编写大量样板代码的情况下简单地生成这些编码?