我希望这不是一个太基本的问题,我指望数据科学网站的描述是真实的,它说“......以及那些有兴趣了解更多有关该领域的人”。我不是在寻求编程帮助,只是验证机器学习可以帮助我解决问题。
我正在尝试在我们的数据库中查找所有客户的电话号码。一个数据库有一个包含来自我们客户服务中心的自由格式评论的字段。这是一个混淆的片段:
多个#'s 123-456-7890 和 2345678901...经常账户#2233445566
如您所见,此记录包含两个电话号码和一个 10 位数的帐号。其中一个电话号码有破折号,而第二个没有。寻找括号会有所帮助,但只能找到一小部分。还有其他 10 位数字可能看起来像电话号码,但实际上并非如此。
如果我运行查询以返回所有带有破折号格式的 10 位数字的记录,我会得到数千条记录。如果我检查任何 10 位数字,我会得到数万个。因此,手动扫描这些记录以验证准确匹配是不切实际的。
我想知道我是否可以建立一个机器学习模型,我可以训练它来准确地找到这个混乱中的电话号码。当我说“准确”时,我并不是指 100%,只是比标准 SQL 查询更好。如果可以的话,我会用它来解析在这个数据库中创建的新数据。
在我看来,这个问题可能是机器学习的一个很好的候选。但我是机器学习的新手,到目前为止我所做的研究讨论了看起来不太一样的不同场景。