在更广泛的意义上,您在这里所指的是文本挖掘。这是根据某些标准从文本中提取信息以形成特定模式和含义等的地方。
您将如何实施这取决于您所考虑的标准。
例如,假设您有一篇文本格式的博客文章(在本例中我们称之为 filepath.txt)。
您决定要将单词分类为特定类别。例如,您可以将关键字hotel、flight、countries分类为travel,即这三个词的每个出现都将被替换为数据。假设数据是相关的兴趣类别。任何属于旅行类别的文章都将包含在您感兴趣的文章中。
然后,您可以使用 Python 扫描文件并使用 filedata.replace 将关键字替换为类别:
# Read file
with open('filepath.txt', 'r') as file :
filedata = file.read()
# Replace keyword
filedata = filedata.replace('How ', ' ')
filedata = filedata.replace('Why ', ' ')
filedata = filedata.replace('of ', ' ')
filedata = filedata.replace('to ', ' ')
filedata = filedata.replace('you ', ' ')
filedata = filedata.replace('all ', ' ')
filedata = filedata.replace('and ', ' ')
filedata = filedata.replace('be ', ' ')
filedata = filedata.replace(' a ', ' ')
filedata = filedata.replace(' for ', ' ')
filedata = filedata.replace(' in ', ' ')
filedata = filedata.replace(' is ', ' ')
filedata = filedata.replace(' the ', ' ')
filedata = filedata.replace(' about ', ' ')
filedata = filedata.replace(' an ', ' ')
filedata = filedata.replace('Data', ' data ')
filedata = filedata.replace('Python', ' data ')
filedata = filedata.replace('R', ' data ')
filedata = filedata.replace('machine', ' data ')
filedata = filedata.replace('Linux', ' data ')
filedata = filedata.replace('technology', ' data ')
filedata = filedata.replace('flights', 'travel')
filedata = filedata.replace('countries', 'travel')
filedata = filedata.replace('hotel', 'travel')
filedata = filedata.replace('analytics', 'data')
filedata= filedata.replace('CNN', 'news')
filedata= filedata.replace('weather', 'news')
filedata= filedata.replace('Trump', 'news')
filedata= filedata.replace('market', 'business')
filedata= filedata.replace('entrepreneur', 'business')
filedata= filedata.replace('financial', 'business')
# Write to file
with open('filepath2.txt', 'w') as file:
file.write(filedata)
然后,您可以在 R 中使用诸如stringr之类的库来查看类别(将关键字替换为类别)出现的频率:
require(stringr)
WordList <- str_split(readLines("filepath2.txt"), pattern = " ")
searchqueries<-sort(table(WordList),decreasing=TRUE)[1:100]
searchqueries
例如,如果该类别出现 X 次或更多次,则该文章被视为相关。
这只是如何使用文本挖掘的一个示例。同样,这在很大程度上取决于您的具体标准以及您将如何确定相关性。但这是你可以接近它的一种方式。