具有非原子特征的预测

数据挖掘 机器学习
2021-09-23 07:28:40

我想使用非原子数据作为预测的特征。假设我有一个具有以下功能的表:

- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]

例如,我想预测/分类第 2 列。

我正在做一些事情来自动回答问题,任何类型的问题,比如“Foo 出生在哪里?” ...

我首先对搜索引擎进行查询,然后得到一些文本数据作为结果,然后我进行所有解析工作(标记、词干提取、解析、拆分……)

我的第一种方法是制作一个表格,每一行都有一行文字和很多特征,比如“第一个单词”、“第一个单词的标签”、“块”等......

但是通过这种方法,我错过了句子之间的关系。

我想知道是否有一种算法可以查看树结构(或向量)内部并建立关系并提取与预测/分类相关的任何内容。我更愿意了解一个可以做到这一点的库,而不是我必须实现的算法。

1个回答

在处理许多不同类型的数据时,尤其是当它们之间的关系不清楚时,我强烈推荐一种基于决策树的技术,据我所知,今天最流行的是随机森林,并且非常随机树

两者都在sklearn中实现,并且使用起来非常简单。在非常高的层次上,decision tree基于 的方法对多种不同类型的数据有利的原因是因为决策树在很大程度上独立于它们正在处理的特定数据,只要它们能够理解您的表示即可。

您仍然需要将数据放入某种特征向量中,但根据您的示例,这似乎是一项非常简单的任务,如果您愿意更深入地了解您的实现,您当然可以想出一个自定义的树分割规则,而无需实际更改底层算法中的任何内容。如果您想试一试,原始论文是一个相当不错的起点。

不过,如果您想从文本数据中获取伪结构数据,我可能会建议您查看doc2vec最近由 Google 开发的 . 我不认为现在有任何好的开源实现,但这是对word2vec算法的一个非常直接的改进,它至少在Cpython.

希望有帮助!如果您还有其他问题,请告诉我。