我是数据科学领域的新手,一直在努力解决一个简单的分类问题。它似乎足够通用,我怀疑必须有更好的方法来构建/建模这个问题。我将不胜感激任何帮助。
背景
- 在我们的系统中,我们有数百万张票(类似于 JIRA 票),其中每张票都具有
title、description等属性tags。 - 用户可以创建仪表板并将任意数量的这些工单添加到他们的仪表板。每个仪表板都有一个
title和description。 - 目前在 ~3k 仪表板中有 ~100k 个工单。
问题陈述
- 给定一张新票,我想建议可以将其添加到哪些仪表板。
- 给定一个新的仪表板,我想建议可以添加哪些票证。
我的尝试
在我的第一次尝试中,我尝试使用Doc2Vec 和 Logistic Regression 的多类文本分类。
- 基本上,我从工单标题(使用 Doc2Vec)创建向量,然后使用这些向量作为输入,仪表板标题作为标签运行逻辑回归。
- 然而,按照这种方法,我只能达到 2-3% 的准确率。
- 我认为这是因为带有约 3k 个标签的逻辑回归不是一个好的选择。
在我的第二次尝试中,我为工单标题和仪表盘标题创建了 2 个向量(使用 Doc2Vec),并训练了一个神经网络,其中工单标题向量作为输入,仪表盘标题向量作为输出。
- 和以前一样,我用这种方法只达到了 2% 的准确率。
问题
- 我想从专家那里知道,如果我用这些方法走在正确的轨道上?如果是这样,我应该继续调整我的模型以提高准确性吗?
- 还是我走在完全错误的轨道上?如果是这样,是否有更好的方法来模拟这样的分类问题?我有点迷茫,不胜感激。