PRML笔记1
概念
- 训练集(training set)
- 测试集(test set)
- 检验集(validation set)
- 目标向量(target vector),由目标变量组成
- 泛化能力(generalization)
- 预处理(preprocessing),也叫特征提取(feature extraction)
分类
根据目标向量的有无,我们分为监督学习(supervised learning)
和非监督学习(unsupervised learning)
。
监督学习按目标变量值的离散与否分为分类(classification)
或回归(regression)
。
非监督学习用于发现相似簇,也称为聚类(clustering)
或密度估计(density estimation)
或可视化(visualization)
。
另外还有一种叫强化学习(reinforcement learning)
,用于解决开发(exploration)和利用(exploitation)两难的收益最大化的决策问题。
例1 多项式曲线拟合(回归)
$\vec{x} =(x_1,\ldots,x_N)^T$, $\vec{t}=(t_1,\ldots,t_N)^T$
我们选择线性模型(多项式)
$$
y(x,\vec w)=\sum_{j=0}^M w_jx^j
$$
定义误差函数(error function)
$$
E(\vec w)=\frac{1}{2}\sum_{n=1}^N{y(x_n,\vec w)-t_n}^2
$$
其中对于$M$的选择我们称其为模型比较或模型选择(model comparison/selection)
.模型比较是为了得到泛化能力强的模型,而不产生过拟合(over-fitting)
或欠拟合
的情况.为此,需要定义一个与样本量无关的评价指标,这里我们使用均方根误差(root-mean-square error)
$$
E_{RMS}=\sqrt{2E(\vec w ^*)/N}
$$
过拟合的处理
- 随着训练集的增大,模型复杂度($M$)可适当增加而不会产生过拟合现象.
- 正则化(regularization) $$ \tilde E(\vec w)=\frac{1}{2}\sum_{n=1}^N{y(x_n,\vec w)-t_n}^2+\frac{\lambda}{2}||\vec w||^2 $$ 其中$\lambda$是对正则项和误差函数权重的权衡.这种平方正则化的回归被称为岭回归(ridge regression).
贝叶斯视角
贝叶斯定理在机器学习下的表示: $$ p(\vec w|\mathcal D)=\frac{p(\mathcal D|\vec w)}{p(\mathcal D)}p(\vec w) $$ 我们一般称$p(\mathcal D|\vec w)$ 为似然函数,而众所周知的最大似然估计就是最大化该似然函数.在机器学习中,我们也将似然函数的负对数形式称为错误函数,则最大似然估计和最小错误函数是同一概念.
模型选择
维度诅咒
决策理论
信息论
- 原文作者:mlyixi
- 原文链接:https://mlyixi.github.io/post/ml/PRML%E7%AC%94%E8%AE%B01/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。