AI 的底层算法/模型架构
一、神经网络基本架构
这些是最早的深度学习基石:
- 感知机 (Perceptron):最简单的神经元模型,只能做线性分类。
- 多层感知机 (MLP / Feedforward Neural Network):堆叠多层感知机,可以逼近任意函数。
二、卷积类模型(CNN)
擅长处理 图像、视频、语音 等有空间结构的数据。
- LeNet (1990s):早期手写数字识别。
- AlexNet (2012):让深度学习爆火,赢得 ImageNet。
- VGG、GoogLeNet、ResNet:逐步解决网络更深、训练更难的问题。
- ConvNeXt:现代 CNN,吸收 Transformer 思路。
三、循环类模型(RNN)
擅长处理 序列数据(文本、语音、时间序列)。
- RNN (Recurrent Neural Network):能记住序列信息,但梯度容易消失/爆炸。
- LSTM (Long Short-Term Memory):加了“门控机制”,解决长期依赖。
- GRU (Gated Recurrent Unit):比 LSTM 更简洁,效果类似。
四、注意力机制与 Transformer
这是 现代 AI 的主流。
- Self-Attention (自注意力):计算序列中不同位置的依赖关系。
- Transformer (2017):完全抛弃 RNN/CNN,只靠注意力,训练效率极高。
- 衍生出 BERT(编码型)、GPT(解码型)、T5(编码-解码型) 等。
五、生成模型
用于 生成图像、文本、语音 等。
- 自回归模型 (AR):如 GPT,逐步生成下一个词。
- 自编码器 (Autoencoder):压缩+解码,学习数据表示。
- 变分自编码器 (VAE):在概率空间里生成数据。
- 生成对抗网络 (GAN):两个网络对抗(生成器 vs 判别器)。
- 扩散模型 (Diffusion Models):逐步去噪生成,如 Stable Diffusion、Imagen。
六、图神经网络(GNN)
擅长处理 图结构数据(社交网络、分子结构)。
- GCN (Graph Convolutional Network)
- GraphSAGE
- GAT (Graph Attention Network)
七、强化学习(RL)
用于 决策与控制,特别是在游戏、机器人。
- Q-learning / Deep Q-Network (DQN)
- Policy Gradient (策略梯度)
- Actor-Critic / PPO:ChatGPT 就用 PPO 来做人类反馈强化学习 (RLHF)。
✅ 简明总结:
- MLP → 基础
- CNN → 图像
- RNN / LSTM / GRU → 序列
- Transformer → 现代主流(语言、图像、语音都能处理)
- GAN / VAE / Diffusion → 生成模型
- GNN → 图结构
- 强化学习 → 决策
评论