我目前正在研究应该能够与用户界面交互的应用程序原型。
现在每个用户界面都有一些共同的元素,如按钮、滚动条、输入字段等。
我想使用机器学习以某种方式“解释”这样的用户界面,例如,我以后可以输入用户界面作为图像,然后让原型“试用”界面,意思是点击按钮,使用滚动条将一些文本输入到输入字段等。
我知道这必须使用图像识别来完成,因为有许多不同的 UI。
我对网站、带有打开的 PDF(又可以是表单等)的 Adobe Reader 和带有打开的文档的 Word(同样可以包含表单等)特别感兴趣。
现在我的主要问题是,在这个领域是否已经有一些我可以使用的研究,或者甚至是用于部分过程的现有工具。
任何帮助表示赞赏:)