数据挖掘 - 基于某些特征创建指标 - 吾爱随笔录

基于某些特征创建指标

数据挖掘特征工程特征构造

2022-02-14 04:17:39

我想创建一个基于某些功能的新指标，但不知道如何开始。我基本上想创建一个基于某些功能的“工作满意度”指标。功能可以是工作时间、轮班、是否在周末工作等。我不知道如何开始。在理想世界中，我想计算每个特征的权重并计算最终值，然后将最终值放入工作满意度级别桶中。然后我想在我的训练模型中使用这个指标。有什么方法可以这样做吗？假设我有不同的仓库，这些特性的值不同，我想根据我上面提到的所有这些位置的特性计算“工作内容”或“工作满意度”指标。然后我想将这个新的计算指标与我的其他功能一起用于员工辞职预测。任何帮助表示赞赏。

谢谢

2个回答

确实，有些方法已经在其他地方进行了测试，有些成功或失败。

我将提出其中一个来构建对工作满意度的预测，然后您可以将其作为解释变量输入员工辞职的监督模型中，您可以在本教程中使用我前段时间编写的 Python 代码查看其方法：HR分析MVP

生成满意度预测的方法：从代表公司一部分成员声明的满意度的分数中推断变量的重要性

我认为开始做一个好的 MVP（最小可行产品）的最佳方法是，您可以通过它提供相对快速的结果，并获得包含您公司元素的结果，其中您从数据集中获得特征的重要性你的解释变量和一个目标，对工人进行了一项声明性满意度调查，从中计算出作为解释变量的分数。为此，您必须遵循以下步骤：

1.-您设计了一项满意度调查，该调查将由工人回答，并允许您从中计算得分。这里重要的是调查的设计尽可能完整，受访者的数量允许您在统计级别得出结论，最重要的是，回答调查的人知道如何提取原始数据这使您以后可以推断出哪些是最相关的变量。这里有一些资源可以为您提供有关如何生成满意度指数的一些想法

2.-然后，使用在步骤 1 中生成的数据集，您可以创建一个特征工程师并确定哪些变量对工人声明的满意度影响最大。

3.-解决了第 2 点，您可以对分数进行预测，并将您的模型应用于未来以及同一公司的其他员工。

重要提示：每当您运行下一个时期的预测时，您都应该在每次迭代中进行一些满意度调查，以确认模型仍然有效并将该数据用作永久再培训。一般来说，只要公司的环境没有发生重大变化（合并、由于大规模解雇导致工作环境显着恶化等），该模型就应该有用，因为在这种情况下，您应该尝试捕捉短线这些冲击的长期影响

尽管这种方法是一个很好的起点，但它忽略了许多公司难以检测的东西，因为它对应于它的外生变量，例如：

a.- 该人在职业方面改变了他的兴趣和/或目标。示例：想要将职业重心转向更具商业性的方面或其他专业（如数据科学或数据工程师）的软件开发人员

b.-这个人改变他们的目标和/或在他们的生活中优先考虑他们。示例：一个想要开始将更多时间用于个人生活的人，因为他与伴侣一起经历了危机

以下是他们使用该方法的示例：使用算法变量重要性度量挖掘工作满意度的驱动因素

PD：还有其他研究方向避免从对员工的直接查询中提取满意度指数，而是将其他变量（例如等效收入或在公司花费的时间）作为等效指标。这不是我最喜欢的线，但在这里我留下一个例子：使用等值收入作为指标

这里有一些开始点，它们都涉及收集“监督”数据。

开始的一点是收集员工的满意度反馈，例如“不满意”-1、“平均”0、“满意”1或5级分数等。然后你可以将这个问题作为一个分类来解决/回归任务。在此过程中，您将了解重要的指标/组合。

另一个起点是使用专家知识。也就是说，专家（或任何符合条件的人）将阅读员工的报告并为他们分配满意度。那么你应该作为第一种情况进行。

比较简单的数据获取方式是比较而不是绝对满意度。例如，您应该以“员工 1 比员工 2 更满意”的形式收集数据，然后使用前面的步骤继续预测两个员工之间的差异，即 +1 或 -1。这样，对于任何给定的员工以及根据满意度（作为衡量标准）排序的一小群代表性员工到，您可以将馈送到模型以找到满意度水平范围内的员工。例如，频谱中的 5 个输出将是 $e$ $e_1$ $e_5$ $(e, e_i)$ $e$ $+1, +1, +1, -1, -1$ ，这意味着的满意度在和之间。这样，您甚至可能不需要提取重要特征，只需将预测模型的输出转换为分数即可。 $e$ $e_3$ $e_4$

其它你可能感兴趣的问题

上一篇使用 Doc2vec 的句子相似度下一篇对于具有非统计数学背景的人来说，精通机器学习需要多长时间？