文章目录

1. 朴素贝叶斯法的学习与分类
2. 朴素贝叶斯法的参数估计
1. 2.1. 极大似然估计
2. 2.2. 贝叶斯估计

朴素贝叶斯（naïve Bayes）法是基于被也是定力与特征条件独立假设的分布方法。首先对于训练数据集，基于特征条件独立假设学习输入输出的联合概率分布，然后对于给定的输入，利用贝叶斯定理求出后验概率最大的输出。

朴素贝叶斯法的学习与分类

朴素贝叶斯法是典型的生成学习方法。利用训练数据学习$P(X|Y)$和$P(Y)$的估计，得到联合概率分布

$$P(X,Y) = P(X)P(X|Y)$$

概率估计方法可以是极大似然估计或者贝叶斯估计。

朴素贝叶斯法的基本假设使条件独立性。

$$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},…,X^{(n)}=x^{(n)}|Y=c_k)\\ =\prod \limits_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$$

条件独立假设使朴素贝叶斯法变得简单，但是有时候会牺牲一定的分类准确率。

朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测，将输入的 x 分到后验概率最大的类 y：

$$y=\arg \max {c_k}P(Y=c_k)\prod \limits{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$$

后验概率最大等价于0-1函数损失时的期望风险最小化。

朴素贝叶斯法的参数估计

在朴素贝叶斯法中，学习即估计$P(Y=c_k)$和$P(X^{(j)}=x^{(j)}|Y=c_k)$

极大似然估计

先验概率$P(Y=c_k)$的极大似然估计是：

$$P(Y=c_k)=\frac{\sum \limits_{i=1}^NI(y_i=c_k)}{N},\quad k=1,2,…,K$$

设第 j 个特征$x^{(j)}$可能取值集合为${a_{j1},a_{j2},…,a_{jS_j} }$，则条件概率为：

$$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum \limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum \limits_{i=1}^NI(y_i=c_k)}\ j=1,2,…,n;\quad l=1,2,…S;\quad k=1,2,…,K$$

贝叶斯估计

极大似然估计可能会出现估计的概率值为 0 的情况，这会影响到后验概率的计算结果。可以使用贝叶斯估计来解决这一问题。贝叶斯估计即加入一个系数防止0情况出现。

$$P_\lambda(Y=c_k)=\frac{\sum \limits_{i=1}^NI(y_i=c_k)+\lambda}{N+K\lambda},\quad k=1,2,…,K$$

$$P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum \limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum \limits_{i=1}^NI(y_i=c_k)+S_j\lambda}\ j=1,2,…,n;\quad l=1,2,…S;\quad k=1,2,…,K$$

上面两式中，$\lambda\geq0$，当取1时，称为拉普拉斯平滑。

Liexing's Blog

不疯魔，不成佛

统计学习方法（笔记）-朴素贝叶斯法

朴素贝叶斯法的学习与分类

朴素贝叶斯法的参数估计

极大似然估计

贝叶斯估计