我是一名高中生,刚接触数据科学,想进入自然语言处理领域。我目前对NLP一无所知,网上的信息可能会铺天盖地。什么是代币?它们用于什么/为什么我们需要标记文本?
什么是代币和代币化?
数据挖掘
机器学习
nlp
2022-02-13 08:09:58
2个回答
好吧,我认为最好观看有关它的课程。但是,例如,当人们在亚马逊上评论不同的产品时,有一种方法可以了解他们的评论是正面还是负面,因此他们的评论被用作数据,分析然后标记为正面或负面。此外,使用这种方法,可以确定电子邮件是否为垃圾邮件等。
为了分析文本,我们需要将其拆分为元素、含义、单词(通常),这些元素中的每一个都称为标记。
将文本拆分为单词后,省略不代表任何内容的无用单词、一些符号等(“.”、“我的”、...),然后我们创建单词袋,这是最重要的单词在整个数据集(所有评论)中,每个单词都是表格中的一列,表格的每一行都是评论,如果它包含该特定单词,则在一列中有 1。还有一个标签列,显示评论是否正面。然后有了这个数据集,我们可以将分类模型拟合到数据集。
“标记”通常是单个单词(至少在英语等语言中),“标记化”是将文本或一组文本分解成单个单词
这是迄今为止您可以获得的关于令牌的最简单的定义。考虑如下一句话:-“数据是新的石油”。现在人类可以用多种方式解释同一个句子,比如“我们可以将数据称为新石油”、“数据也可以称为新石油”。现在所有这些句子的含义几乎相同,我们人类通过逐字阅读句子来理解句子,并通过将其组合在一起来关联它所产生的含义。
由于深度学习与复制类人方法密切相关,因此标记化是一种简化单个单词含义然后从句子中创造意义的方法。
在标记化教程中进一步了解这一点
其它你可能感兴趣的问题