0%

机器学习原理-GAN

生成对抗网络(Generative Adversarial Network)原理。

问题描述 (1)

目标是通过机器学习方法生成“真实人脸图像”。当然,生成的图像不太可能是真实人脸图像,这里“真实”指具有自然摄影风格的人脸(区别于卡通、素描或抽象艺术等非写实风格),图像尺寸为 $100 \times 100$ 的 RGB 图像。

将每张图像视为 $\mathbb{R}^{30000}$ 空间中的一个点(因为 $3 \times 100 \times 100 = 30000$ 个像素),那么:

  • 这个空间内绝大多数区域都不是“图像”(绝大多数点都不对应人类可识别的自然图像),虽然任意点在技术上都可以被解释为一个 $100 \times 100$ 的 RGB 图像;
  • 所有“真实人脸图像”并非均匀散布在整个 $\mathbb{R}^{30000}$ 空间中,而是高度集中于某个特定区域;
  • 尽管该空间维度极高(30000 维),但真实人脸的变化实际上仅由少量语义因素控制,例如:
    • 身份(identity)
    • 表情(expression)
    • 光照条件(illumination)
    • 头部姿态(pose)
    • 年龄、性别等高层属性

这些因素共同构成了一个远低于 30000 维的隐含自由度空间(通常估计在几十到几百维之间)。因此,所有合理的真实人脸图像实际上嵌入在一个光滑的低维子流形(low-dimensional manifold)上。

类似地,所有“真实猫的图像”也会集中在 $\mathbb{R}^{30000}$ 中另一个不同的低维子流形上。

由于人脸与猫在语义和视觉结构上差异巨大,这两个流形在高维空间中几乎不相交(disjoint supports),对应的概率分布 $p_{face}(\boldsymbol{x})$ 与 $p_{cat}(\boldsymbol{x})$ 高度不重叠。

这一观点在机器学习中被称为流形假设(Manifold Hypothesis)

自然数据(如图像、语音、文本)虽然表示在高维观测空间中,但其本质结构存在于一个低维、非线性的潜在流形上

该假设是现代生成模型(如 GAN、VAE、扩散模型)得以成功的关键理论基础——它们的目标正是学习并逼近这个隐藏的低维数据流形。

基础知识 (1)

概率质量和概率密度 (1.1)

概率论中,用概率分布来描述随机变量的行为。根据随机变量是离散型还是连续型,使用两种不同的工具来刻画其分布:

  • 离散型随机变量:概率质量函数(Probability Mass Function, PMF)
  • 连续型随机变量:概率密度函数(Probability Density Function, PDF)

虽然名字相似,但它们的数学含义和使用方式有本质区别。

概率质量函数(PMF)——用于离散变量

设 $X$ 是一个离散型随机变量,其可能取值为可数集合 $\mathcal{X} \in {x_1, x_2, \dots}$。

概率质量函数(PMF)是一个函数 $P:\mathcal{X} \to [0,1]$,满足:

$$
P(x) = P(X = x), \quad \forall x \in \mathcal{X}
$$

$$
\sum_{x \in \mathcal{X}} P(x) = 1
$$

例子:掷骰子

  • 随机变量 $X$:骰子点数 $\mathcal{X} \in {1, 2, 3, 4, 5, 6}$
  • PMF:$P(x) = \frac{1}{6}$ 对所有 $x \in \mathcal{X}$
  • 解读:$P(X=3) = P(3) = \frac{1}{6}$

直观比喻:“每个点的重量”

  • 想象你在一条数轴上放几个小砝码;
  • 每个砝码的位置是 $x$,重量是 $P(x)$;
  • 总重量为 1;
  • $P(x)$ 就是“点 $x$ 上的概率质量” —— 这也是“质量函数”名称的由来。

关键性质

  • $P(x)$ 本身就是概率,所以 $0 \leq P(x) \leq 1$
  • 可以直接说“$X$ 等于 $x$ 的概率是 $P(x)$”

概率密度函数(PMF)——用于连续变量

设 $X$ 是一个连续型随机变量,其取值在 $\mathbb{R}$(或 $\mathbb{R}^d$)上。

若存在一个非负可积函数 $p: \mathbb{R} \to [0, \infty)$,使得对任意区间 $[a,b]$ 有:

$$
P(a \leq X \leq b) = \int_a^b p(x) dx
$$

则称 $p(x)$ 为 $X$ 的概率密度函数(PDF)。

PDF 满足归一化条件:

$$
\int_{-\infty}^{\infty} p(x) dx = 1
$$

例子:标准正态分布

  • PDF:$p(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}$
  • 注意:$p(0) \approx 0.4$,但 $P(X = 0) = 0$
  • 而 $P(-1 \leq X \leq 1) = \int_{-1}^{1} p(x) dx \approx 0.68$

直观比喻:“人口密度”

  • 想象一个国家的人口分布:
    • 人口密度(人/平方公里) ↔ 概率密度 $p(x)$
    • 某城市的人口总数($\approx$ 人口密度 $\times$ 城市面积) ↔ 概率 $P(a \leq X \leq b)$
  • 不能说“这个经纬度点上有 500 人”(点面积为 0),但可以说“每平方公里有 500 人”

关键性质

  • $p(x)$ 不是概率它可以大于 1(例如均匀分布 $U(0,0.1)$ 的 PDF 是 10);
  • 只有积分才有概率意义:$P(X \in A) = \int_A p(x) dx$;
  • 单点概率恒为零:$P(X=x)=0$。

对比

figure1

PMF vs PDF

误区

误区 1:“PDF 在 $x$ 处的值就是 $X=x$ 的概率。”
错误!正确说法:

“PDF 在 $x$ 附近的积分才是概率。”
样本落到区间 $[a, b]$ 的概率,等于 PDF 在区间 $[a, b]$ 上的积分。
想象在 $x$ 附近放一个宽度为 $\Delta x$ 的小盒子,那么样本落入这个盒子的概率 $\approx p(x) \cdot \Delta x$。所以 $p(x)$ 越大,盒子越“拥挤”。

误区 2:“因为 p(x)≤1,所以 PDF 不会超过 1。”

错误!反例:

均匀分布 $X \sim U(0, \varepsilon)$,PDF 为:
$$
p(x) = \begin{cases}
\frac{1}{\varepsilon}, & x \in [0, \varepsilon] \\
0, & \text{otherwise}
\end{cases}
$$
当 $\varepsilon = 0.01$ 时,$p(x) = 100$(在区间 $[0, 0.01]$ 内)。$[0, 0.01]$ 区间内每个具体的点概率都为0(点没有长度),但 $[0, 0.01]$ 区间上的积分是1。

JS 散度 (1.2)

Jensen-Shannon 散度(Jensen-Shannon Divergence, 简称 JS 散度)是一种衡量两个概率分布相似性的度量。

写的不错,有赏!