1基础
1. 特征提取
一、CV中的特征提取
1. 传统方法(手工设计特征)
(1) 低级视觉特征:颜色、纹理、 边缘与形状…
(2) 中级语义特征:SIFT(尺度不变特征变换)、SURF(加速鲁棒特征)、LBP(局部二值模式)…
2. 深度学习方法(自动学习特征)
(1) 卷积神经网络(CNN)
- 核心思想:将图像分割为小块(patches),通过自注意力机制建模全局关系。
- 优势:无需局部卷积先验,直接建模长距离依赖; 在ImageNet等任务上超越传统CNN。
二、NLP中的特征提取
1. 传统方法(基于统计与规则)
(1) 词袋模型(Bag of Words, BoW): 将文本表示为词汇表中单词的出现频率。
(2) TF-IDF(词频-逆文档频率): 衡量单词在文档中的重要性(TF-IDF值 = 词频 × 逆文档频率)。
(3) N-gram模型: 统计连续N个词的组合频率(如Bi-gram、Tri-gram)。
(4) 词嵌入(预训练词向量)
- Word2Vec(2013):
- 通过Skip-Gram或CBOW模型,将词映射为低维稠密向量。
- 相似词在向量空间中距离相近(如“国王-王后≈男人-女人”)。
- GloVe(2014):
(5) 局限性:无法建模长距离上下文依赖; 词向量静态,无法处理一词多义。