《大数据分析》 笔记


特征工程

属性类型

  1. 标称属性
    • 二元属性是特殊的标称属性
    • 非对称二元属性指概率不同的二元属性
  2. 序数属性
    • 相继值之间的差是未知的
  3. 数值属性
    • 离散属性、连续属性
    • “无限可数”:比如学号

特征工程

  1. 特征提取
  2. 特征变换
  3. 特征选择

特征变换

  • z-score 标准化:均值为0,方差为1
  • 最大最小归一化

分箱离散化
  • 等宽分箱:“箱子的宽度”相同
  • 等深分箱:每箱实例数称为“箱子的深度”

分箱后,用箱均值、中位数或边界值替换箱中的每个值,实现属性值的离散化

特征变换

数值化处理

  • 有序变量
  • 无序变量
    • 二分类:01
    • 多分类
      • one-hot
      • 标签编码(无含义)

数据降维

主成分分析 PCA
  1. m 个 n 维数据样本矩阵 X
  2. X 的每行 零均值化
  3. 求协方差矩阵
  4. 求协方差矩阵的特征值及对应的特征向量
  5. 将特征向量按对应的特征值大小从上到下按行排列成矩阵,取前 r 行组成矩阵$ W^T $
  6. $ Y = W^TX $即为降到 r 维后的数据

线性判别分析 LDA

有监督的线性降维

基本思想:使用数据的类别信息,将高维的样本线性投影到低维空间,使在低维空间中数据的类别区分度最大

区分度?

  • 不同类之间的离散度
  • 同类数据的内聚性

Lasso 降维

一种回归分析方法,通过 L1 正则化实现选择和降维

ISOMAP

流形(manifold)是一类几何对象的总称

  • 测地距离(geodesic distance)代替欧氏距离
算法步骤
  1. 构造近邻图
    • 对每个节点(每个样本),构造边(k 近邻,对每个近邻点,构造一条边……最短路径长度)
  2. 计算最短路径
  3. 找出样本的低维表示
优点
  • 保留了全局结构
  • 只有一个参数 k 需要确定
缺点
  • 对噪音敏感
  • Floyd 最短路径算法的计算代价高

特征提取

文本数据结构化

  • 词袋法 n-gram 模型
  • 词嵌入法
    • word2vec 简单的神经网络模型
      • 连续词袋模型 CBOW:根据上下文词语预测目标词出现的概率
      • 跳字模型 skip-gram:根据目标此预测其上下文
        • 通过预测周围词来训练中心词的向量表示,表示能力往往更好

word2vec 缺点

  • 在独立的局部上下文窗口上训练,难以利用单词的全局统计信息
  • 对词是确定性的,即在不同语境中同一词的向量是一样的,这意味着 word2vec 不能解决多义词问题

特征选择

  • 过滤式 filter —— 基于统计测试/其它单变量评估指标
  • 包裹式 wrapper —— 于模型训练过程结合,作为评价特征子集优劣的标注(验证集?)
  • 嵌入式 embedded —— 在模型训练过程中进行特征选择,入决策树、随机森林等

基于树模型的特征重要性

基于线性模型的特征重要性

基于互信息的特征重要性

基于 SHAP 值的特征重要性

基于随机排列的特征重要性