我的问题更多是关于“有可能吗?” “这是正确的方法吗?” 所以让我解释一下我的想法是什么:
我想到了一个系统,它以各种结构获取 XML 文档,但其中的数据结构基本相同。例如,假设每个文档都包含关于一个或多个人的数据。所以人工智能会识别一个名字。文件的其他地方有我们虚构人物的邮寄地址。AI 现在应该“看到”地址并得出结论,它属于我们的人。在其他任何地方,文档中都有一个电话号码。同样,我们的 AI 应该看到我们的人和这个电话号码之间的联系。
如果没有陷阱,这将不是 AI 的工作。如果任务只是查找和映射地址和电话号码等字符串,我们可以简单地使用正则表达式来匹配我们的“目标字符串”。这种情况下的问题是:XML 文档可能包含其他数据,这些数据不属于我们的个人,但例如是一个有效的电话号码,因此将匹配一个正则表达式。
所以最大的问题是:人工智能是否有可能学习这一点,如果可以,有人会使用哪个框架来创建这样的人工智能?
示例 XML 文档:
<?xml version="1.0" encoding="utf-8" ?>
<document>
<data>
<foo>
<bar>
<person>
<name>John Doe</name>
</person>
</bar>
<address>
<street>Main street 1</street>
<city>1111 Twilight town</city>
<country>sample country</country>
</address>
<phone>+123 123 123</phone>
</foo>
<foo>
<bar>
<person>
<name>Jane Doe</name>
</person>
</bar>
<address>
<street>Broadway 42</street>
<city>4521 Traverse town</city>
<country>sample country</country>
</address>
<phone>+123 412123</phone>
</foo>
</data>
<creator>
<!-- Note: While this looks like a valid person, -->
<!-- this data should not be matched by the AI -->
<name>Sam Smith</name>
<office>
<street>Seaside road 5</street>
<city>4521 Traverse town</city>
<country>sample country</country>
</office>
<phone>+123 555 555</phone>
</creator>
</document>