编程基础

归一化（Normalization）数据标准化缩放常见方法

1. Min-Max 归一化（常见）

公式：

x′=x−min⁡(x)max⁡(x)−min⁡(x)x' = \frac{x - \min(x)}{\max(x) - \min(x)}

范围：把数据映射到 [0,1] 或其他区间。
优点：直观，保留原始分布比例。
缺点：受极端值影响很大。

2. Z-Score 标准化（零均值单位方差）

公式：

x′=x−μσx' = \frac{x - \mu}{\sigma}

其中 μ\mu 是均值，σ\sigma 是标准差。

范围：不固定，但均值 = 0，标准差 = 1。
优点：对极值更稳健，常用于机器学习。
缺点：数据要近似正态分布时效果最佳。

3. 小数定标归一化（Decimal Scaling）

公式：

x′=x10kx' = \frac{x}{10^k}

其中 kk 取使得 ∣x′∣<1|x'| < 1 的最小整数。

例子：如果数据在 [–985, 962]，则取 k=3k=3，数据缩放到 [–0.985, 0.962]。
优点：计算快，适合大整数。
缺点：不考虑分布特征。

4. Log/对数缩放

公式：

x′=log⁡(x+1)x' = \log(x+1)

适用：数据分布极度偏斜（长尾），如收入、点击次数。
优点：压缩大值，放大小值。
缺点：要求数据非负。

5. 分位数归一化（Quantile Normalization）

方法：将数据映射到分位数（如 0~1 的百分位）。
例子：95% 的值 → 0.95。
适用：数据分布差异很大，希望结果均匀分布在 [0,1]。

6. Max-Abs 缩放

公式：

x′=xmax⁡(∣x∣)x' = \frac{x}{\max(|x|)}

范围：[-1, 1]。
适用：稀疏矩阵（文本 TF-IDF），不破坏稀疏性。

7. Robust Scaling（基于中位数和 IQR）

公式：

x′=x−median(x)IQR(x)x' = \frac{x - \text{median}(x)}{IQR(x)}

其中 IQR=Q3−Q1IQR = Q3 - Q1。

适用：有极端值时，效果比 Z-Score 更稳健。

8. 单位向量归一化（L2 Norm）

公式：

x′=x∥x∥x' = \frac{x}{|x|}

适用：向量（如文本 embedding），保证长度为 1。
范围：每个样本向量的范数归一化。

SQL 里能直接做的

Min-Max ✅
Z-Score ✅（用 AVG() 和 STDDEV()）
Max-Abs ✅
Decimal Scaling ✅
Log 缩放 ✅

更复杂的（分位数归一化、Robust Scaling、单位向量归一化）通常在 Python/R 里做更方便。

✅ 行动建议

如果只是表内数值清洗 → 用 SQL 做 Min-Max 或 Z-Score。
如果要喂给机器学习模型 → 推荐 Z-Score 或 Robust。
如果数据有极端值/偏斜 → 考虑 Log 或分位数。
如果是文本向量 → 单位向量归一化。

如果觉得文章对你有用，请随意赞赏

SQL 数学数据分析进阶

归一化（Normalization）数据标准化缩放常见方法

https://www.dadiqiu.online/archives/%E5%BD%92%E4%B8%80%E5%8C%96%EF%BC%88normalization%EF%BC%89-%E6%95%B0%E6%8D%AE%E6%A0%87%E5%87%86%E5%8C%96%E7%BC%A9%E6%94%BE%E5%B8%B8%E8%A7%81%E6%96%B9%E6%B3%95

作者

Ethan Wilkins

发布于

2025-09-04

更新于

2025-09-04

许可协议

CC BY 4.0

归一化（Normalization） 数据标准化缩放常见方法

1. Min-Max 归一化（常见）

2. Z-Score 标准化（零均值单位方差）

3. 小数定标归一化（Decimal Scaling）

4. Log/对数缩放

5. 分位数归一化（Quantile Normalization）

6. Max-Abs 缩放

7. Robust Scaling（基于中位数和 IQR）

8. 单位向量归一化（L2 Norm）

SQL 里能直接做的

作者

发布于

更新于

许可协议

评论

归一化（Normalization）数据标准化缩放常见方法