问题
假设您有一个包含 100,000 多个与旅行预订相关的谷歌查询的列表。例如:
hotels in london
barcelona flight
city breaks to berlin
khao san road hostel
luxury holiday to paris
new york business class flight price
disneyland trip...
- 如何提取位置,即伦敦
- 对业务线进行分类,即航班、酒店、包裹等
- 对亲和力进行分类,即奢华、家庭、城市休闲、海滩等
使用此信息记录关键字中存在的各种模式的频率
i.e. **keyword pattern** **frequency** (destination) hotel xxx flight to (destination) yyy (theme) (destination) hotel zzz
潜在的解决方案
手动- 获取尽可能详尽的位置列表(大多数查询将针对旅游目的地)并查找与关键字的匹配项。同样,将关键字与可能的业务线标识符和关联标识符进行比较
Google Cloud Natural Language API - 这可用于分析文本的实体和情感。例如伦敦的酒店 -> entity(hotels), entity(london) barcelona flight -> entity(flight), entity(barcelona) 这不是很强大,只支持英文。
机器学习- 似乎很困难,因为我没有任何关键字描述符。朴素贝叶斯适用还是支持向量机?
我最好也想在 R 中运行任何解决方案。
有人可以建议一个方向/潜在的解决方案吗?