生成对抗网络（Generative Adversarial Network）原理。

问题描述 (1)

目标是通过机器学习方法生成“真实人脸图像”。当然，生成的图像不太可能是真实人脸图像，这里“真实”指具有自然摄影风格的人脸（区别于卡通、素描或抽象艺术等非写实风格），图像尺寸为 $100 \times 100$ 的 RGB 图像。

将每张图像视为 $\mathbb{R}^{30000}$ 空间中的一个点（因为 $3 \times 100 \times 100 = 30000$ 个像素），那么：

这个空间内绝大多数区域都不是“图像”（绝大多数点都不对应人类可识别的自然图像），虽然任意点在技术上都可以被解释为一个 $100 \times 100$ 的 RGB 图像；
所有“真实人脸图像”并非均匀散布在整个 $\mathbb{R}^{30000}$ 空间中，而是高度集中于某个特定区域；
尽管该空间维度极高（30000 维），但真实人脸的变化实际上仅由少量语义因素控制，例如：
- 身份（identity）
- 表情（expression）
- 光照条件（illumination）
- 头部姿态（pose）
- 年龄、性别等高层属性

这些因素共同构成了一个远低于 30000 维的隐含自由度空间（通常估计在几十到几百维之间）。因此，所有合理的真实人脸图像实际上嵌入在一个光滑的低维子流形（low-dimensional manifold）上。

类似地，所有“真实猫的图像”也会集中在 $\mathbb{R}^{30000}$ 中另一个不同的低维子流形上。

由于人脸与猫在语义和视觉结构上差异巨大，这两个流形在高维空间中几乎不相交（disjoint supports），对应的概率分布 $p_{face}(\boldsymbol{x})$ 与 $p_{cat}(\boldsymbol{x})$ 高度不重叠。

这一观点在机器学习中被称为流形假设（Manifold Hypothesis）：

自然数据（如图像、语音、文本）虽然表示在高维观测空间中，但其本质结构存在于一个低维、非线性的潜在流形上。

该假设是现代生成模型（如 GAN、VAE、扩散模型）得以成功的关键理论基础——它们的目标正是学习并逼近这个隐藏的低维数据流形。

基础知识 (1)

概率质量和概率密度 (1.1)

概率论中，用概率分布来描述随机变量的行为。根据随机变量是离散型还是连续型，使用两种不同的工具来刻画其分布：

离散型随机变量：概率质量函数（Probability Mass Function, PMF）
连续型随机变量：概率密度函数（Probability Density Function, PDF）

虽然名字相似，但它们的数学含义和使用方式有本质区别。

概率质量函数（PMF）——用于离散变量

设 $X$ 是一个离散型随机变量，其可能取值为可数集合 $\mathcal{X} \in {x_1, x_2, \dots}$。

概率质量函数（PMF）是一个函数 $P:\mathcal{X} \to [0,1]$，满足：

$$
P(x) = P(X = x), \quad \forall x \in \mathcal{X}
$$

且

$$
\sum_{x \in \mathcal{X}} P(x) = 1
$$

例子：掷骰子

随机变量 $X$：骰子点数 $\mathcal{X} \in {1, 2, 3, 4, 5, 6}$
PMF：$P(x) = \frac{1}{6}$ 对所有 $x \in \mathcal{X}$
解读：$P(X=3) = P(3) = \frac{1}{6}$

直观比喻：“每个点的重量”

想象你在一条数轴上放几个小砝码；
每个砝码的位置是 $x$，重量是 $P(x)$；
总重量为 1；
$P(x)$ 就是“点 $x$ 上的概率质量” —— 这也是“质量函数”名称的由来。

关键性质：

$P(x)$ 本身就是概率，所以 $0 \leq P(x) \leq 1$
可以直接说“$X$ 等于 $x$ 的概率是 $P(x)$”

概率密度函数（PMF）——用于连续变量

设 $X$ 是一个连续型随机变量，其取值在 $\mathbb{R}$（或 $\mathbb{R}^d$）上。

若存在一个非负可积函数 $p: \mathbb{R} \to [0, \infty)$，使得对任意区间 $[a,b]$ 有：

$$
P(a \leq X \leq b) = \int_a^b p(x) dx
$$

则称 $p(x)$ 为 $X$ 的概率密度函数（PDF）。

PDF 满足归一化条件：

$$
\int_{-\infty}^{\infty} p(x) dx = 1
$$

例子：标准正态分布

PDF：$p(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}$
注意：$p(0) \approx 0.4$，但 $P(X = 0) = 0$
而 $P(-1 \leq X \leq 1) = \int_{-1}^{1} p(x) dx \approx 0.68$

直观比喻：“人口密度”

想象一个国家的人口分布：
- 人口密度（人/平方公里） ↔ 概率密度 $p(x)$
- 某城市的人口总数（$\approx$ 人口密度 $\times$ 城市面积） ↔ 概率 $P(a \leq X \leq b)$
不能说“这个经纬度点上有 500 人”（点面积为 0），但可以说“每平方公里有 500 人”

关键性质：

$p(x)$ 不是概率！它可以大于 1（例如均匀分布 $U(0,0.1)$ 的 PDF 是 10）；
只有积分才有概率意义：$P(X \in A) = \int_A p(x) dx$；
单点概率恒为零：$P(X=x)=0$。

对比

PMF vs PDF

误区

误区 1：“PDF 在 $x$ 处的值就是 $X=x$ 的概率。”
→ 错误！正确说法：

“PDF 在 $x$ 附近的积分才是概率。”
样本落到区间 $[a, b]$ 的概率，等于 PDF 在区间 $[a, b]$ 上的积分。
想象在 $x$ 附近放一个宽度为 $\Delta x$ 的小盒子，那么样本落入这个盒子的概率 $\approx p(x) \cdot \Delta x$。所以 $p(x)$ 越大，盒子越“拥挤”。

误区 2：“因为 p(x)≤1，所以 PDF 不会超过 1。”

→ 错误！反例：

均匀分布 $X \sim U(0, \varepsilon)$，PDF 为：
$$
p(x) = \begin{cases}
\frac{1}{\varepsilon}, & x \in [0, \varepsilon] \\
0, & \text{otherwise}
\end{cases}
$$
当 $\varepsilon = 0.01$ 时，$p(x) = 100$（在区间 $[0, 0.01]$ 内）。$[0, 0.01]$ 区间内每个具体的点概率都为0（点没有长度），但 $[0, 0.01]$ 区间上的积分是1。

JS 散度 (1.2)

Jensen-Shannon 散度（Jensen-Shannon Divergence, 简称 JS 散度）是一种衡量两个概率分布相似性的度量。

Yuanguo's Blog

机器学习原理-GAN