是否有包含特征工程技术列表的资源?数据类型、模型和特征工程技术的映射将是一座金矿。
特征工程技术列表
数据挖掘
特征选择
特征提取
特征工程
特征构造
特征化
2021-09-30 01:13:44
2个回答
缺失数据插补:
完整案例分析
均值/中值/众数插补
随机样本插补
任意值替换
缺失值指示符
多元插补
分类编码:
一种热编码
计数和频率编码
目标编码/平均编码
序数编码
证据的重量
稀有标签编码
BaseN、特征散列等
变量转换:
对数
互惠的
平方根
指数的
杨-约翰逊
箱考克斯
离散化:
等频离散化
等长离散化
用树离散化
使用 ChiMerge 进行离散化
异常值去除:
去除异常值
将异常值视为 NaN
封顶,温莎化
特征缩放:
标准化
最小最大缩放
均值缩放
最大绝对缩放
单位范数缩放
日期和时间工程:
- 提取天、月、年、季度、经过的时间
特征创建:
- 总和、减法、平均值、最小值、最大值、乘积、特征组的商
聚合交易数据:
- 与上述相同,但在时间窗口内具有相同的特征
从文本中提取特征:
词袋
tfidf
n-gram
word2vec
主题提取
最后从图像中提取特征。
一篇描述上述大多数技术的好文章: 特征工程全面概述
一个很好的资源列表来了解更多关于特征工程: 学习特征工程的最佳资源
用于特征工程的 Python 工具可以在这个线程中找到
免责声明:我写了 2 篇文章,也是 1 个学习特征工程的推荐课程的创建者。
关于如何进行特征工程没有明确的来源。它通常取决于您要解决的问题。有人说它更像是一门艺术而不是科学。
但如果有的话,我会介绍一些高分的 kaggle 内核/获胜解决方案。只需前往kaggle并浏览比赛。里面有很多非常有用的材料。
机器学习研究杂志也有很多关于特征工程的论文。只需在他们的网站http://www.jmlr.org/上搜索即可。
以下链接很有用,而且很容易解释:
其它你可能感兴趣的问题