深度学习|分类标准

2026年2月24日作者 tapho123

一、按核心任务目标分类

1. 分类任务（Classification）

任务：给输入分配一个 / 多个类别标签

图像分类
- AlexNet（开启深度学习 CV）
- VGG16/19
- GoogLeNet（Inception v1/v3）
- ResNet（残差网络，解决深层退化）
- MobileNet（轻量化）
- ViT（Vision Transformer，纯 Transformer 做图像分类）
文本分类
- TextCNN
- LSTM/GRU
- BERT、RoBERTa、ALBERT

2. 回归任务（Regression）

任务：预测连续数值

深度回归模型
- MLP 回归
- CNN 回归分支
- LSTM 时序回归
应用场景：人脸关键点检测、目标框坐标回归、房价预测、流量预测

3. 目标检测（Object Detection）

任务：找出图中物体 → 位置 + 类别

两阶段（精度高）
- Faster R-CNN
- Mask R-CNN（检测 + 分割）
单阶段（速度快）
- SSD
- RetinaNet（解决正负样本不平衡）
- YOLOv3 / YOLOv5 / YOLOv8 / YOLOv9
Transformer 检测
- DETR（End-to-End 检测）
- RT-DETR

4. 语义分割（Semantic Segmentation）

任务：对每个像素做分类（同一类物体不分个体）

FCN（首个端到端分割）
U-Net（医学图像分割标配）
DeepLabv3+
SegFormer（Transformer 分割）

5. 实例分割（Instance Segmentation）

任务：把每个物体单独抠出来（区分个体）

Mask R-CNN
SOLO
YOLACT

6. 全景分割（Panoptic Segmentation）

任务：语义分割 + 实例分割统一

Panoptic FPN
Mask2Former

7. 生成任务（Generation）

任务：从噪声 / 文本生成新数据

图像生成
- GAN、DCGAN、StyleGAN（高清人脸）
- VAE
- Stable Diffusion、DALL・E（文生图）
文本生成
- GPT（自回归）
- T5、BART
- LLaMA、Qwen
语音生成
- WaveNet
- Tacotron 2

8. 表征学习 / 自监督学习

任务：不依赖标签，学习通用特征

SimCLR、MoCo v1/v2/v3（CV 对比学习）
MAE（掩码图像建模）
BERT（掩码语言模型 MLM）

9. 强化学习任务

任务：智能体通过奖励学习最优策略

DQN
A3C
PPO（目前最常用）
AlphaGo、AlphaZero

二、按学习范式分类

1. 监督学习（有标签）

代表模型：ResNet、Faster R-CNN、BERT、YOLO

2. 无监督学习（无标签，学数据分布）

聚类：K-Means（传统）、DeepCluster
生成：GAN、VAE

3. 自监督学习（自己造标签）

CV：MAE、SimCLR、DINO
NLP：BERT（MLM）

4. 半监督学习（少量标签 + 大量无标签）

FixMatch
半监督 U-Net

5. 弱监督学习

仅用图像级标签做检测 / 分割
- CAM、WSSS

三、按数据模态分类

1. 计算机视觉（CV）

基础：AlexNet、VGG、ResNet、ViT
检测：Faster R-CNN、YOLO、DETR
分割：U-Net、DeepLabv3+
生成：StyleGAN、Stable Diffusion

2. 自然语言处理（NLP）

序列模型：LSTM、GRU
预训练模型：BERT、GPT、T5、LLaMA

3. 语音处理

语音识别：Conformer、Wav2Vec 2.0
语音合成：Tacotron 2、WaveNet

4. 多模态学习

图文对齐：CLIP
图文生成：DALL・E、Flux
多模态大模型：GPT-4V、LLaVA、BLIP-2

四、按基础网络架构分类

MLP（前馈神经网络）
- 多层感知机，最基础结构
CNN
- 图像主导：ResNet、VGG、U-Net
RNN / LSTM / GRU
- 序列数据：文本、语音时序
Transformer
- 全模态通用：ViT、BERT、GPT、DETR、MAE

发表评论取消回复