回归/拟合方法列表
1️⃣ 线性回归类
| 方法 | 简介 | 优点 | 缺点 |
|---|---|---|---|
| 普通最小二乘线性回归 (OLS) | 假设目标与特征是线性关系 | 简单、易理解、计算快;可解释性强 | 对非线性、异常值敏感;易过拟合或欠拟合 |
| 岭回归 (Ridge) | 在OLS基础上加L2正则化,防止过拟合 | 减少多重共线性影响;稳定系数 | 无法做特征选择;仍假设线性关系 |
| 套索回归 (Lasso) | 加L1正则化,可做特征选择 | 可以压缩不重要特征;简单模型 | 对高度相关特征可能随机选取 |
| 弹性网 (ElasticNet) | L1+L2正则化 | 综合Ridge和Lasso优点 | 参数调节复杂 |
2️⃣ 非线性回归类
| 方法 | 简介 | 优点 | 缺点 |
|---|---|---|---|
| 多项式回归 | 线性模型加高次项 | 可以捕捉简单非线性 | 高次项容易过拟合;系数解释困难 |
| 支持向量回归 (SVR) | 用核函数拟合非线性关系 | 对小样本和高维有效 | 对大数据慢;参数调节难 |
| K近邻回归 (KNN Regression) | 用相似样本预测 | 无需假设分布 | 对噪声敏感;高维数据表现差 |
3️⃣ 树模型类(非线性强、解释性好)
| 方法 | 简介 | 优点 | 缺点 |
|---|---|---|---|
| 决策树回归 | 用树结构分段预测 | 非线性强;易解释 | 易过拟合;不稳定 |
| 随机森林回归 (Random Forest) | 多棵决策树平均 | 抗过拟合;鲁棒性强 | 模型较大;可解释性比单树差 |
| 梯度提升树 (GBDT, XGBoost, LightGBM, CatBoost) | 顺序加树拟合残差 | 非线性强;高精度 | 调参复杂;训练慢 |
| HistGradientBoosting | GBDT的高效版本 | 大数据速度快 | 参数复杂;对小数据不一定优 |
4️⃣ 神经网络类
| 方法 | 简介 | 优点 | 缺点 |
|---|---|---|---|
| 多层感知机 (MLP) | 全连接神经网络 | 可拟合高度非线性 | 数据量大;易过拟合;难解释 |
| RNN/LSTM | 处理时间序列 | 可捕捉序列依赖 | 训练复杂;参数多;需大量数据 |
| 1D-CNN | 卷积处理时间序列 | 自动提取局部特征 | 需要调参;对非序列问题不优 |
5️⃣ 统计/贝叶斯回归类
| 方法 | 简介 | 优点 | 缺点 |
|---|---|---|---|
| 贝叶斯线性回归 | 给系数加先验分布 | 可量化不确定性 | 对非线性弱;计算复杂 |
| 岭/套索贝叶斯回归 | 正则化+贝叶斯 | 可处理共线性和不确定性 | 非线性弱;参数选择难 |
🔹 总结建议
- 快速可解释 → 线性回归、Ridge/Lasso
- 捕捉非线性 → 树模型(Random Forest / GBDT)
- 时间序列依赖强 → LSTM / RNN
- 小样本 → SVR、Bayesian Regression
- 大数据 → HistGradientBoosting、LightGBM
评论