特征工程技术列表

数据挖掘 特征选择 特征提取 特征工程 特征构造 特征化
2021-09-30 01:13:44

是否有包含特征工程技术列表的资源?数据类型、模型和特征工程技术的映射将是一座金矿。

2个回答

缺失数据插补:

  1. 完整案例分析

  2. 均值/中值/众数插补

  3. 随机样本插补

  4. 任意值替换

  5. 缺失值指示符

  6. 多元插补

分类编码:

  1. 一种热编码

  2. 计数和频率编码

  3. 目标编码/平均编码

  4. 序数编码

  5. 证据的重量

  6. 稀有标签编码

  7. BaseN、特征散列等

变量转换:

  1. 对数

  2. 互惠的

  3. 平方根

  4. 指数的

  5. 杨-约翰逊

  6. 箱考克斯

离散化:

  1. 等频离散化

  2. 等长离散化

  3. 用树离散化

  4. 使用 ChiMerge 进行离散化

异常值去除:

  1. 去除异常值

  2. 将异常值视为 NaN

  3. 封顶,温莎化

特征缩放:

  1. 标准化

  2. 最小最大缩放

  3. 均值缩放

  4. 最大绝对缩放

  5. 单位范数缩放

日期和时间工程:

  1. 提取天、月、年、季度、经过的时间

特征创建:

  1. 总和、减法、平均值、最小值、最大值、乘积、特征组的商

聚合交易数据:

  1. 与上述相同,但在时间窗口内具有相同的特征

从文本中提取特征:

  1. 词袋

  2. tfidf

  3. n-gram

  4. word2vec

  5. 主题提取

最后从图像中提取特征。

一篇描述上述大多数技术的好文章: 特征工程全面概述

一个很好的资源列表来了解更多关于特征工程: 学习特征工程的最佳资源

用于特征工程的 Python 工具可以在这个线程中找到

免责声明:我写了 2 篇文章,也是 1 个学习特征工程的推荐课程的创建者。

关于如何进行特征工程没有明确的来源。它通常取决于您要解决的问题。有人说它更像是一门艺术而不是科学。

但如果有的话,我会介绍一些高分的 kaggle 内核/获胜解决方案。只需前往kaggle并浏览比赛。里面有很多非常有用的材料。

机器学习研究杂志也有很多关于特征工程的论文。只需在他们的网站http://www.jmlr.org/上搜索即可。

以下链接很有用,而且很容易解释:

  • 可以在 Quora 上找到有关特征工程的一些最佳实践的一些信息,请参阅此链接
  • 在机器学习精通中,有这个 关于特征工程的页面。