PRML读书笔记：1.Introduction

一. Introduction

概率论
- 由贝叶斯公式 $p(\pmb w|\mathcal D)=\frac{p(\mathcal D|\pmb w)p(\pmb w)}{p(\mathcal D)}$ 得到贝叶斯定理：“后验概率正比于先验概率与似然函数的乘积”
- 假设观测值 $\pmb t$ 服从高斯分布 $N(y(\pmb{x,w}), \frac{1}{\beta})$ ，则最大化似然函数 $$ \ln p(\pmb{t|x,w},\beta)=-\frac{\beta}{2}\sum_{n=1}^N{y(\pmb x_n,\pmb w)-t_n}^2+\frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi) $$ 等价于最小化平方和误差 $\frac{1}{2}\sum_{n=1}^N{y(\pmb x_n,\pmb w)-t_n}^2$
- 假设 $\pmb{w}$ 先验分布为 $N(\pmb 0,\alpha^{-1}\pmb I)$ ，则最大化先验概率 $$ \ln p(\pmb w|\alpha)=\frac{M+1}{2}\ln\frac{\alpha}{2\pi}-\frac{\alpha}{2}\pmb w^T\pmb w $$ 等价于最小化 $\pmb w^T\pmb w$
- 由贝叶斯定理 $p(\pmb{w|x,t},\alpha,\beta)\propto p(\pmb{t|x,w},\beta)p(\pmb w|\alpha)$ ，寻找最可能的 $\pmb w$ 值即最大化左边即最小化右边的负对数，结合前面所述，最大化后验概率即最小化下式： $$ \frac{\beta}{2}\sum_{n=1}^N{y(\pmb{x_n,w})-t_n}^2+\frac{\alpha}{2}\pmb w^T\pmb w $$
由此，最大化后验概率等价于最小化正则化的平方和误差函数（ $\lambda=\frac{\alpha}{\beta}$ ）。
- 预测概率可以写成下面的形式： $$ p(t|x,\pmb{x,t})=\int p(t|x,\pmb w)p(\pmb{w|x,t})d\pmb w $$
证明（也可用概率图证）： $$ p(t|x,\pmb{x,t})=\int p(\pmb w,t|x,\pmb{x,t})d\pmb w\\=\int p(t|x,\pmb{w,x,t})p(\pmb w|x,\pmb{x,t})=\int p(t|x,\pmb w)p(\pmb{w|x,t})d\pmb w $$
模型选择
- 除了交叉验证等常规方法，还有直接使用一些信息准则的方式，如AIC即选择使 $\ln p(\mathcal D|\pmb w_{ML})-M$ （M为模型中可调节参数的数量）最大的模型，第四章会提到它的变体BIC
维度灾难
- 模型的复杂度问题，会导致函数空间过大
- 高维几何体的各种性质会突变，不能用低维的直觉去思考，如在高维空间中，一个球体的大部分体积都聚集在表面附近的薄球壳上
决策论
- 最小化期望损失即对新的 $\pmb x$ 将其分到使式 $\sum_kL_{kj}p(C_k|\pmb x)$ 取最小值的第 $j$ 类
- 拒绝选项：对于后验概率的最大值 $p(C_k|\pmb x)$ 小于等于一个阈值 $\theta$ 的输入，避免做出决策是更正确的选择（可以用留给专家等方式处理）
- 生成式模型：直接对 $p(\pmb x,C_k)$ 建模，然后归一化得到后验概率 $p(C_k|\pmb x)$ ，显式或隐式地对输入或输出进行建模（通过取样可以用来人工生成输入空间的数据点）
- 判别式模型：先直接对后验概率 $p(C_k|\pmb x)$ 建模，解决这一推断问题，再使用决策论对新输入$\pmb x$进行分类
- 更简单的模型：找到函数$f(\pmb x)$直接将输入$\pmb x$映射为类别标签（此情况下概率不起作用）
信息论
- 熵描述随机变量的不确定性，值等于按其可能值的概率进行霍夫曼编码后的编码期望长度的$\frac{1}{\ln2}$倍（使用的对数底数由 $2$ 变成了 $e$ ）
- 离散变量在满足均匀分布时的熵最大，连续变量在满足高斯分布时熵最大，且都随分布宽度增加而增加
- 相对熵也即KL散度描述两个分布的差异度，即用一个分布描述另一分布的信息时为了使其更具体所需要的平均附加信息量，因此由下式定义： $$ KL(p||q)=-\int p(x)\ln q(x)dx-(-\int p(x)\ln p(x)dx)\\=-\int p(x)\ln{\frac{q(x)}{p(x)}}dx $$
$KL(p||q)\ne KL(q||p), KL(p||q)\ge0$
- 互信息（$x,y$间的互信息描述$x$和$y$是否“接近”于相互独立）： $$ I[x,y]=KL(p(x,y)||p(x)p(y))=-\iint p(x,y)\ln(\frac{p(x)p(y)}{p(x,y)})dxdy $$
$I[x,y]=H[x]-H[x|y]=H[y]-H[y|x]$

一. Introduction

分类

其它