我有一个应用程序可以跟踪人们提及各种主题。我们使用贝叶斯算法进行了一些简单的分类(用户竖起大拇指/竖起大拇指)来挑选他们认为最适合他们的项目的人。
我们的目的是使用这些数据来帮助我们根据“适合”客户的需求对影响者进行分类和排序。
但是,我们有一些训练有素的数据,现在我们所能做的就是说它们是否类似于“拇指向上”组或“拇指向下”组。
我们应该为此使用什么算法?
基本上,理想的是有一个分数。基于训练数据的最大、最小的就是最先显示的那个。
想法?
如果它在 Ruby 中,那就更好了。
我有一个应用程序可以跟踪人们提及各种主题。我们使用贝叶斯算法进行了一些简单的分类(用户竖起大拇指/竖起大拇指)来挑选他们认为最适合他们的项目的人。
我们的目的是使用这些数据来帮助我们根据“适合”客户的需求对影响者进行分类和排序。
但是,我们有一些训练有素的数据,现在我们所能做的就是说它们是否类似于“拇指向上”组或“拇指向下”组。
我们应该为此使用什么算法?
基本上,理想的是有一个分数。基于训练数据的最大、最小的就是最先显示的那个。
想法?
如果它在 Ruby 中,那就更好了。
如果您要为提到的主题解析大量文本,请查看词频-逆文档频率 (TF-IDF)。该度量标准衡量主题的重要性,以它们在文档语料库中出现的频率为界,这有助于清除可能非常常见但对所有讨论都非常常见的主题,因此不是很有用。
这是一个简单的计算,但是有一个 ruby gem 可以直接计算它:tf-idf-similarity.
希望这可以帮助。