特征工程
属性类型
- 标称属性
- 二元属性是特殊的标称属性
- 非对称二元属性指概率不同的二元属性
- 序数属性
- 相继值之间的差是未知的
- 数值属性
- 离散属性、连续属性
- “无限可数”:比如学号
特征工程
- 特征提取
- 特征变换
- 特征选择
特征变换
- z-score 标准化:均值为0,方差为1
- 最大最小归一化
分箱离散化
- 等宽分箱:“箱子的宽度”相同
- 等深分箱:每箱实例数称为“箱子的深度”
分箱后,用箱均值、中位数或边界值替换箱中的每个值,实现属性值的离散化
特征变换
数值化处理
- 有序变量
- 无序变量
- 二分类:01
- 多分类
- one-hot
- 标签编码(无含义)
数据降维
主成分分析 PCA
- m 个 n 维数据样本矩阵 X
- X 的每行 零均值化
- 求协方差矩阵
- 求协方差矩阵的特征值及对应的特征向量
- 将特征向量按对应的特征值大小从上到下按行排列成矩阵,取前 r 行组成矩阵$ W^T $
- $ Y = W^TX $即为降到 r 维后的数据
线性判别分析 LDA
有监督的线性降维
基本思想:使用数据的类别信息,将高维的样本线性投影到低维空间,使在低维空间中数据的类别区分度最大
区分度?
- 不同类之间的离散度
- 同类数据的内聚性
Lasso 降维
一种回归分析方法,通过 L1 正则化实现选择和降维
ISOMAP
流形(manifold)是一类几何对象的总称
- 用测地距离(geodesic distance)代替欧氏距离
算法步骤
- 构造近邻图
- 对每个节点(每个样本),构造边(k 近邻,对每个近邻点,构造一条边……最短路径长度)
- 计算最短路径
- 找出样本的低维表示
优点
- 保留了全局结构
- 只有一个参数 k 需要确定
缺点
- 对噪音敏感
- Floyd 最短路径算法的计算代价高
特征提取
文本数据结构化
- 词袋法 n-gram 模型
- 词嵌入法
- word2vec 简单的神经网络模型
- 连续词袋模型 CBOW:根据上下文词语预测目标词出现的概率
- 跳字模型 skip-gram:根据目标此预测其上下文
- 通过预测周围词来训练中心词的向量表示,表示能力往往更好
- word2vec 简单的神经网络模型
word2vec 缺点
- 在独立的局部上下文窗口上训练,难以利用单词的全局统计信息
- 对词是确定性的,即在不同语境中同一词的向量是一样的,这意味着 word2vec 不能解决多义词问题
特征选择
- 过滤式 filter —— 基于统计测试/其它单变量评估指标
- 包裹式 wrapper —— 于模型训练过程结合,作为评价特征子集优劣的标注(验证集?)
- 嵌入式 embedded —— 在模型训练过程中进行特征选择,入决策树、随机森林等
基于树模型的特征重要性
基于线性模型的特征重要性
基于互信息的特征重要性
基于 SHAP 值的特征重要性
基于随机排列的特征重要性