深度学习|分类标准

一、按核心任务目标分类

1. 分类任务(Classification)

任务:给输入分配一个 / 多个类别标签

  • 图像分类
    • AlexNet(开启深度学习 CV)
    • VGG16/19
    • GoogLeNet(Inception v1/v3)
    • ResNet(残差网络,解决深层退化)
    • MobileNet(轻量化)
    • ViT(Vision Transformer,纯 Transformer 做图像分类)
  • 文本分类
    • TextCNN
    • LSTM/GRU
    • BERT、RoBERTa、ALBERT
2. 回归任务(Regression)

任务:预测连续数值

  • 深度回归模型
    • MLP 回归
    • CNN 回归分支
    • LSTM 时序回归
  • 应用场景:人脸关键点检测、目标框坐标回归、房价预测、流量预测
3. 目标检测(Object Detection)

任务:找出图中物体 → 位置 + 类别

  • 两阶段(精度高)
    • Faster R-CNN
    • Mask R-CNN(检测 + 分割)
  • 单阶段(速度快)
    • SSD
    • RetinaNet(解决正负样本不平衡)
    • YOLOv3 / YOLOv5 / YOLOv8 / YOLOv9
  • Transformer 检测
    • DETR(End-to-End 检测)
    • RT-DETR
4. 语义分割(Semantic Segmentation)

任务:对每个像素做分类(同一类物体不分个体)

  • FCN(首个端到端分割)
  • U-Net(医学图像分割标配)
  • DeepLabv3+
  • SegFormer(Transformer 分割)
5. 实例分割(Instance Segmentation)

任务:把每个物体单独抠出来(区分个体)

  • Mask R-CNN
  • SOLO
  • YOLACT
6. 全景分割(Panoptic Segmentation)

任务:语义分割 + 实例分割 统一

  • Panoptic FPN
  • Mask2Former
7. 生成任务(Generation)

任务:从噪声 / 文本生成新数据

  • 图像生成
    • GAN、DCGAN、StyleGAN(高清人脸)
    • VAE
    • Stable Diffusion、DALL・E(文生图)
  • 文本生成
    • GPT(自回归)
    • T5、BART
    • LLaMA、Qwen
  • 语音生成
    • WaveNet
    • Tacotron 2
8. 表征学习 / 自监督学习

任务:不依赖标签,学习通用特征

  • SimCLR、MoCo v1/v2/v3(CV 对比学习)
  • MAE(掩码图像建模)
  • BERT(掩码语言模型 MLM)
9. 强化学习任务

任务:智能体通过奖励学习最优策略

  • DQN
  • A3C
  • PPO(目前最常用)
  • AlphaGo、AlphaZero

二、按学习范式分类

1. 监督学习(有标签)
  • 代表模型:ResNet、Faster R-CNN、BERT、YOLO
2. 无监督学习(无标签,学数据分布)
  • 聚类:K-Means(传统)、DeepCluster
  • 生成:GAN、VAE
3. 自监督学习(自己造标签)
  • CV:MAE、SimCLR、DINO
  • NLP:BERT(MLM)
4. 半监督学习(少量标签 + 大量无标签)
  • FixMatch
  • 半监督 U-Net
5. 弱监督学习
  • 仅用图像级标签做检测 / 分割
    • CAM、WSSS

三、按数据模态分类

1. 计算机视觉(CV)
  • 基础:AlexNet、VGG、ResNet、ViT
  • 检测:Faster R-CNN、YOLO、DETR
  • 分割:U-Net、DeepLabv3+
  • 生成:StyleGAN、Stable Diffusion
2. 自然语言处理(NLP)
  • 序列模型:LSTM、GRU
  • 预训练模型:BERT、GPT、T5、LLaMA
3. 语音处理
  • 语音识别:Conformer、Wav2Vec 2.0
  • 语音合成:Tacotron 2、WaveNet
4. 多模态学习
  • 图文对齐:CLIP
  • 图文生成:DALL・E、Flux
  • 多模态大模型:GPT-4V、LLaVA、BLIP-2

四、按基础网络架构分类

  1. MLP(前馈神经网络)
    • 多层感知机,最基础结构
  2. CNN
    • 图像主导:ResNet、VGG、U-Net
  3. RNN / LSTM / GRU
    • 序列数据:文本、语音时序
  4. Transformer
    • 全模态通用:ViT、BERT、GPT、DETR、MAE

发表评论