一、按核心任务目标分类
1. 分类任务(Classification)
任务:给输入分配一个 / 多个类别标签
- 图像分类
- AlexNet(开启深度学习 CV)
- VGG16/19
- GoogLeNet(Inception v1/v3)
- ResNet(残差网络,解决深层退化)
- MobileNet(轻量化)
- ViT(Vision Transformer,纯 Transformer 做图像分类)
- 文本分类
- TextCNN
- LSTM/GRU
- BERT、RoBERTa、ALBERT
2. 回归任务(Regression)
任务:预测连续数值
- 深度回归模型
- MLP 回归
- CNN 回归分支
- LSTM 时序回归
- 应用场景:人脸关键点检测、目标框坐标回归、房价预测、流量预测
3. 目标检测(Object Detection)
任务:找出图中物体 → 位置 + 类别
- 两阶段(精度高)
- Faster R-CNN
- Mask R-CNN(检测 + 分割)
- 单阶段(速度快)
- SSD
- RetinaNet(解决正负样本不平衡)
- YOLOv3 / YOLOv5 / YOLOv8 / YOLOv9
- Transformer 检测
- DETR(End-to-End 检测)
- RT-DETR
4. 语义分割(Semantic Segmentation)
任务:对每个像素做分类(同一类物体不分个体)
- FCN(首个端到端分割)
- U-Net(医学图像分割标配)
- DeepLabv3+
- SegFormer(Transformer 分割)
5. 实例分割(Instance Segmentation)
任务:把每个物体单独抠出来(区分个体)
- Mask R-CNN
- SOLO
- YOLACT
6. 全景分割(Panoptic Segmentation)
任务:语义分割 + 实例分割 统一
- Panoptic FPN
- Mask2Former
7. 生成任务(Generation)
任务:从噪声 / 文本生成新数据
- 图像生成
- GAN、DCGAN、StyleGAN(高清人脸)
- VAE
- Stable Diffusion、DALL・E(文生图)
- 文本生成
- GPT(自回归)
- T5、BART
- LLaMA、Qwen
- 语音生成
- WaveNet
- Tacotron 2
8. 表征学习 / 自监督学习
任务:不依赖标签,学习通用特征
- SimCLR、MoCo v1/v2/v3(CV 对比学习)
- MAE(掩码图像建模)
- BERT(掩码语言模型 MLM)
9. 强化学习任务
任务:智能体通过奖励学习最优策略
- DQN
- A3C
- PPO(目前最常用)
- AlphaGo、AlphaZero
二、按学习范式分类
1. 监督学习(有标签)
- 代表模型:ResNet、Faster R-CNN、BERT、YOLO
2. 无监督学习(无标签,学数据分布)
- 聚类:K-Means(传统)、DeepCluster
- 生成:GAN、VAE
3. 自监督学习(自己造标签)
- CV:MAE、SimCLR、DINO
- NLP:BERT(MLM)
4. 半监督学习(少量标签 + 大量无标签)
- FixMatch
- 半监督 U-Net
5. 弱监督学习
- 仅用图像级标签做检测 / 分割
- CAM、WSSS
三、按数据模态分类
1. 计算机视觉(CV)
- 基础:AlexNet、VGG、ResNet、ViT
- 检测:Faster R-CNN、YOLO、DETR
- 分割:U-Net、DeepLabv3+
- 生成:StyleGAN、Stable Diffusion
2. 自然语言处理(NLP)
- 序列模型:LSTM、GRU
- 预训练模型:BERT、GPT、T5、LLaMA
3. 语音处理
- 语音识别:Conformer、Wav2Vec 2.0
- 语音合成:Tacotron 2、WaveNet
4. 多模态学习
- 图文对齐:CLIP
- 图文生成:DALL・E、Flux
- 多模态大模型:GPT-4V、LLaVA、BLIP-2
四、按基础网络架构分类
- MLP(前馈神经网络)
- 多层感知机,最基础结构
- CNN
- 图像主导:ResNet、VGG、U-Net
- RNN / LSTM / GRU
- 序列数据:文本、语音时序
- Transformer
- 全模态通用:ViT、BERT、GPT、DETR、MAE