单个特征如何影响神经网络分类问题的预测?

数据挖掘 机器学习 神经网络 特征选择
2022-03-12 04:24:20

在文献中,我遇到过这样的说法:收入较高且工作时间较长的人更有可能被诊断出患有中风等慢性病上述研究(第 8 页)利用 ANN 探讨了行为习惯与慢性病之间的关联。

由于我是 ML 新手,

  1. 我无法弄清楚如何通过神经网络或其他机器学习技术中的特征研究得出这样的结论。

  2. 有没有一种方法可以量化 ANN 中的可能性,类似于逻辑回归,其中回归系数给出预测变量增加一个单位的结果的对数几率的变化?

当前使用 Azure ML 工作室

2个回答

有没有一种方法可以量化 ANN 中的可能性,类似于逻辑回归,其中回归系数给出预测变量增加一个单位的结果的对数几率的变化?

好问题。

是的,有办法。可以帮助您的方法称为部分依赖图(PDP),有关更多详细信息和示例,请参阅下面的链接。

该方法与模型无关,即适用于任何预测模型,强大而简单。

一维偏依赖图的主要步骤如下

  1. 像往常一样适合您的模型
  2. 选择感兴趣的预测变量和一组要调查的值(例如,您参考的文章中的收入和说 50k、70k、80k、...、120k 的值)
  3. 对于数据集中的所有观察值,将预测变量的值替换为上述集合中的第一个值 (50k)。
  4. 计算上一步修改数据集的模型输出,并计算所有观测值的平均值。
  5. 对剩余的值(70k、80k、...)重复步骤 3-4,并沿 X 轴绘制预测变量的值,并沿 Y 轴绘制相应的平均模型预测值。

使用上述一维 PDP,您可以轻松查看正在分析的预测变量对模型输出的边际影响。此外,可以使用类似的技术来执行多维分析,例如调查交互的影响。

部分依赖图 - scikit-learn 文档

部分依赖图 - Dans Becker 在 Kaggle 上的教程

由于您是 ML 新手,我将尝试以最简单的方式进行解释。

1. 我无法弄清楚如何通过神经网络或其他机器学习技术中的特征研究得出这样的结论。

机器学习有很多应用,您在这里谈论的内容属于“推理”一词。这意味着要了解您的输出如何随着输入的变化而受到影响。我建议您阅读这本书- An Introduction to Statistical Learning with Applications in R在本书的第 19 页,给出了——

Inference

We are often interested in understanding the way that Y is affected as X1,...,Xp change.
........
We instead want to understand the relationship between X and Y.

- Which predictors are associated with the response? 
- What is the relationship between the response and each predictor?
- Can the relationship between Y and each predictor be adequately summarized using a linear equation, or is the relationship more complicated?

我没有在这里发布整件事,只是一些重要的点。

所以在这里,你只需分析你的模型,而不是预测。分析后可以得出这样的结论。

2. 有没有一种方法可以量化 ANN 中的可能性,类似于逻辑回归,其中回归系数给出预测变量增加一个单位的结果的对数几率的变化?

据我了解,ANN 有多个层次。它不像逻辑回归只为每个预测变量定义一个系数。在 ANN 中,系数分别为每一层定义,并且在每一层中,为每个节点定义。

希望这可以帮助。