我是练习 NLP 和大多数相关主题的新手,但我想制作一个可以自己收集和提取数据的程序。
更具体地说,我想告诉程序“我想要更多关于这个话题的信息(即心脏病发作)”,然后程序会从 www 周围寻找、收集和提取关于这个话题的有意义的文本。
我碰巧住在挪威,这意味着最有趣的数据将是英语,但我也想获取在挪威语中找到的有趣数据。
一个挑战是停用词的差异。例如,“are”和“and”在英语中都是停用词,在挪威语中是主语。其他挑战也可能出现。
所以我的问题是:我是否需要为每种要解释的自然语言创建单独的算法?