数据挖掘 - 数据挖掘——文本的意图匹配和分类 - 吾爱随笔录

问题

假设您有一个包含 100,000 多个与旅行预订相关的谷歌查询的列表。例如：

hotels in london
barcelona flight
city breaks to berlin
khao san road hostel
luxury holiday to paris
new york business class flight price
disneyland trip...

如何提取位置，即伦敦
对业务线进行分类，即航班、酒店、包裹等
对亲和力进行分类，即奢华、家庭、城市休闲、海滩等

使用此信息记录关键字中存在的各种模式的频率

i.e. **keyword pattern**                **frequency**
(destination) hotel                          xxx
flight to (destination)                      yyy
(theme) (destination) hotel                  zzz

潜在的解决方案

手动- 获取尽可能详尽的位置列表（大多数查询将针对旅游目的地）并查找与关键字的匹配项。同样，将关键字与可能的业务线标识符和关联标识符进行比较
Google Cloud Natural Language API - 这可用于分析文本的实体和情感。例如伦敦的酒店 -> entity(hotels), entity(london) barcelona flight -> entity(flight), entity(barcelona) 这不是很强大，只支持英文。
机器学习- 似乎很困难，因为我没有任何关键字描述符。朴素贝叶斯适用还是支持向量机？

我最好也想在 R 中运行任何解决方案。

有人可以建议一个方向/潜在的解决方案吗？