是否可以设计具有两个输入和一个布尔输出的 AI?

人工智能 训练
2021-11-08 09:43:23

我很难向我的老板解释他试图实现的目标可能无法实现或在合理范围内。我们有一个数据库,每台计算机有 300 万个数据点,跨越数百台机器,当任何数据点被更新、更改或删除时。其中一些数据点是计算机登录的次数、附加的打印机名称、驱动器根目录上的文件夹。我们关心的一些数据点,其他像打印机墨水用完的数据点,我们不关心,但是如果我们关心的打印机离线,同样的方法会返回。

他想设计一个人工智能来检查这些数据点,并在数据点被更改、删除或更新时返回真假。我们正在存储检索数据的方法名称、当前数据、所有以前的数据以及进行更改的时间。我无法预见一种有效训练数据的方法,因为我们目前不知道哪些方法可以检索重要数据或哪些值在该方法中不重要。

是否有可能在没有数小时的主管学习的情况下设计出这样的人工智能?

1个回答

是的......但是......你有很多时间......可能是几天或几周......在你到达那个点之前。

从您在第二段中的担忧中可以明显看出您更大的问题。听起来您的组织目前对问题没有扎实的把握。出于这个原因,一些第一步似乎是有序的。

数据探索

首先收集所有数据点。我建议您先对整个数据进行一些统计分析,包括一些基本的可视化和生成协方差矩阵。从那里开始,开始考虑使用一些聚类方法来识别可能的模式。在此过程中,您几乎肯定会走上一些降维的道路,要么通过 PCA 之类的方法,要么可能识别无用的特征。

特征选择

基于上面的探索工作,您现在应该对您的数据和其中的关系有了更好的理解。基于此,是时候开始思考如何生成产生所需输出的模型了。坦率地说,您可能会发现像随机森林分类这样简单的东西,甚至是 DBSCAN 等聚类方法都可以用于初始训练,然后不断地拟合您的数据,生成随机森林的二元分类或是/否集群与聚类技术。

是否需要更多?

当然,可能需要更复杂的东西,但如果是这样,您会知道可以更好地处理问题,并且可能能够直观地生成可用于神经网络的大型数据集。

哦......作为一个结论性的想法......它可能会证明,在所有这些分析之后,问题无法用你拥有的数据来解决。那时你必须回去看看是否有其他可以收集的数据点。