我想使用非原子数据作为预测的特征。假设我有一个具有以下功能的表:
- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]
例如,我想预测/分类第 2 列。
我正在做一些事情来自动回答问题,任何类型的问题,比如“Foo 出生在哪里?” ...
我首先对搜索引擎进行查询,然后得到一些文本数据作为结果,然后我进行所有解析工作(标记、词干提取、解析、拆分……)
我的第一种方法是制作一个表格,每一行都有一行文字和很多特征,比如“第一个单词”、“第一个单词的标签”、“块”等......
但是通过这种方法,我错过了句子之间的关系。
我想知道是否有一种算法可以查看树结构(或向量)内部并建立关系并提取与预测/分类相关的任何内容。我更愿意了解一个可以做到这一点的库,而不是我必须实现的算法。