我的目标是从 Twitter获取智能手机名称。所以这就是我所遵循的:
1- 我使用关键字“智能手机”提取了 10 万条推文。
2- 我在应用 ngram 标记化和清理后应用了 LDA。所以,我得到了嘈杂的结果,例如:(giveway, international, apple, iphone_6, samsung_s5,news...)
3- 我使用从 DBpedia 中提取的智能手机列表(iphone_6、samsung_s5、iphone_4s、...)过滤了结果,以消除噪音。
我所做的是有监督的还是无监督的机器学习?