深入理解贝叶斯分类与朴素贝叶斯模型（Naive Bayes, NB）：从基础到实战

贝叶斯分类

公式

决策规则

优点

贝叶斯分类器的例子——垃圾邮件问题

1. 特征（输入）：

2. 类别：

3. 数据：

4. 模型训练：

注：类别先验概率

5. 模型预测：

朴素贝叶斯模型

模型定位&模型假设

模型算法

例子

sklearn朴素贝叶斯代码实现

贝叶斯分类

公式

在贝叶斯分类中，我们关注的是样本属于某个类别的概率。设 $x$ 是输入特征向量， $C_k$ 是类别。根据贝叶斯公式，我们可以计算后验概率 $P(C_k|x)$ ：

$P(C_k|x) = \frac{P(x|C_k)P(C_k)}{P(x)}$

其中，

$P(C_k|x)$ 是在给定输入 x 的条件下，属于类别 $C_k$ 的概率。
$P(x|C_k)$ 是在给定类别 $C_k$ 的条件下，输入 x 的概率（类别条件概率）。
$P(C_k)$ 是类别 $C_k$ 的先验概率。
$P(x)$ 是输入 $x$ 的概率。

决策规则

选择具有最高后验概率 $P(C_k|x)$ 的类别作为最终的分类结果。

优点

贝叶斯分类器的优点之一是它对小样本数据具有较好的鲁棒性，而且能够自然地处理多类别问题。然而，它的性能可能会受到输入特征之间的独立性假设的影响。在实际应用中，朴素贝叶斯分类器（Naive Bayes Classifier）是一种常见的贝叶斯分类器，其中假设特征之间是相互独立的。

贝叶斯分类器的例子——垃圾邮件问题

我反正看了上面那些个公式，不慎理解，虽然是数学专业的但是对于类别分布仍然有一些迷茫，所以这里举一个例子

假设我们要使用朴素贝叶斯分类器来判断一封电子邮件是否为垃圾邮件（Spam）或非垃圾邮件（Ham），我们可以使用以下特征：

1. 特征（输入）：

$x_1$ : 邮件中包含词语 "money" 的概率。
$x_2$ : 邮件中包含词语 "free" 的概率。
$x_3$ : 邮件中包含词语 "meeting" 的概率。

2. 类别：

$C_1$ : 垃圾邮件（Spam）。
$C_2$ : 非垃圾邮件（Ham）。

3. 数据：

我们有一个已标记的训练数据集，其中包含一些垃圾邮件和非垃圾邮件。对于每封邮件，我们统计了 $x_1,x_2,x_3$ 的取值。

4. 模型训练：

于每个类别 $C_k$ ，我们计算先验概率 $P(C_k)$ 。对于每个特征 $x_i$ 和类别 $C_k$ ，我们计算类别条件概率 $P(x_i|C_k)$ （这里的计算后面在朴素贝叶斯那里有详细说明）。

注：类别先验概率

类别的先验概率是指在没有任何观测数据的情况下，我们对每个类别的初始信念或概率。这个先验概率表示我们在了解任何具体数据之前对各个类别的预期信念。

数学上，假设有K个类别，类别的先验概率表示为 $P(C_k)$ ，其中 $k = 1,2,3,...,K$ 。

在实际问题中，我们可以通过观察训练数据集中每个类别的样本数量，来估计先验概率。具体而言，如果训练数据中类别 $C_k$ 出现的次数为 $N_k$ ，总样本数为 $N$ ，那么类别 $C_k$ 的先验概率 $P(C_k)$ 可以估计为：

$P(C_k) = \frac{N_k}{N}$

在训练模型时，这些先验概率是模型的一部分，用于计算后验概率。在实际应用中，如果没有特定的先验知识，有时候也会使用均匀先验，即假设每个类别的先验概率相等。这意味着 $P(C_k)$ 对于每个 $k$ 都相等。

5. 模型预测：

对于一封新的邮件，我们计算它属于每个类别的后验概率 $P(C_k|x)$ 。选择具有最高后验概率的类别作为最终的分类结果。

在朴素贝叶斯分类器中，特征之间的独立性假设是一个简化，但在实际应用中，该方法在垃圾邮件过滤等任务上表现良好。

朴素贝叶斯模型

模型定位&模型假设

贝叶斯模型属于生成式模型，它对样本的观测值和类别状态的联合分布 $p( \boldsymbol{x},y)$ 进行建模。在实际应用中，联合分布转换成为类别的先验分布 $p(y)$ 与类条件分布 $p( \boldsymbol{x}|y)$ 乘积的形式：

$p( \boldsymbol{x},y)=p(y)p( \boldsymbol{x}|y)$

前者可以分别使用伯努利分布（二分类）和类别分布（多分类）建模先验概率，但是类条件分布 $p( \boldsymbol{x}|y)$ 的估计一直是贝叶斯模型的难题。

注：在贝叶斯分类中，朴素贝叶斯模型通常涉及到计算后验概率，其中分母是用于归一化的。在实际计算中，我们通常只关注后验概率的相对大小，因此并不需要计算完整的分母。这种做法被称为"朴素"，因为它简化了计算，假设特征之间是独立的，从而避免了计算联合概率分布的复杂性。

在文本分类任务中为例解决类条件分布 $p( \boldsymbol{x}|y)$ 的估计的难题，需要对文本的类条件分布做进一步简化。一种通常的做法是忽略文本中的词序关系，假设各个特征词的位置都是可以互换的，即词袋模型（Bag Of Word，BOW）。基于这一假设类条件分布可以用多项式分布刻画。基于以上条件的贝叶斯模型，称为朴素贝叶斯模型（naive Bayes, NB），它的本质是用混合的多项式分布刻画文本分布。

朴素贝叶斯模型是一种简化的贝叶斯分类器，对观测向量 $\boldsymbol{x}$ 和类别y的联合分布

$p(x,y) = p(y)p(x|y)$

进行建模。通常假设类别变量y（类别先验概率）服从伯努利分布（0-1分布）或分类分布（多分类问题），并根据实际任务对 $p(\boldsymbol{x}|y)$ （类别条件概率）进行合理假设。在图像分类任务中，常常将 $p(\boldsymbol{x}|y)$ 假设为服从高斯分布，而在文本分类中任务中， $p(\boldsymbol{x}|y)$ 常见的分布假设有两种：多项分布模型和多变量伯努利分布模型。其中多变量伯努利分布假设只关心特征项是否出现，而不记录出现的频次，在实际应用中效果不及多项分布假设。因此，在文本分类任务中，不加特别说明的朴素贝叶斯模型往往都是基于多项式分布假设的朴素贝叶斯模型。

模型算法

首先将一个文档 $x$ 表示为一个词的序列

$x=[w_1,w_2,...,w_{|\boldsymbol{x}|}]$

在条件独立性假设下， $p(\boldsymbol{x}|y)$ 可以具有多项分布的形式：

$p(\boldsymbol{x}|c_j)=p([w_1,w_2,...,w_{|\boldsymbol{x}|}]|c_j)=\prod _{i=1}^Vp(t_i|c_j)^{N(t_i,\boldsymbol{x})}$

其中，V是词汇表维度， $t_i$ 表示词汇表中的第i个特征项。令 $\theta_{i|j}=p(t_i|c_j)$ 表示在 $c_j$ 类条件下 $t_i$ 出现的概率， $N(t_i,\boldsymbol{x})$ 表示在文档 $\boldsymbol{x}$ 中 $t_i$ 的词频。

同时，我们以多分类问题为例，假设类别y服从类别分布：

$p(y=c_j) = \pi_j$

根据多项式分布模型假设， $p(\boldsymbol{x},y)$ 的联合分布为

$p(\boldsymbol{x},y=c_j) = p(c_j)p(\boldsymbol{x}|c_j)=\pi_j\prod _{i=1}^V\theta_{i|j}^{N(t_i,\boldsymbol{x})}$

其中 $\boldsymbol{x},\theta$ 均为模型参数。

朴素贝叶斯模型基于最大似然估计算法进行参数学习，给定训练集 $\{x_k,y_k\}_{k=1}^N$ ，模型以对数似然函数 $L(\pi,\theta)=log\prod_{k=1}^Np(x_k,y_k)$ 作为优化目标。对优化目标求导置零，求解得到模型的参数估计值为：

$\pi_j=\frac{\sum_{k=1}^NI(y_k=c_j)}{\sum_{k=1}^N\sum{j'=1}^CI(y_k=c_{j'})}=\frac{N_j}{N}$

$\theta_{i|j}=\frac{\sum_{k=1}^NI(y_k=c_j)N(t_j,x_k)}{\sum_{k=1}^NI(y_k=c_j)\sum_{i'=1}^VN(t_{i'},x_k)}$

从参数估计的结果例可以看出，在多项式分布假设下，频率正是概率的最大似然估计值，例如，类别概率 $\pi_i$ 的最大似然估计结果是训练集中第j类样本出现的频率；类条件下特征想概率的最大似然估计结果是第j类文档中所有特征项中 $t_i$ 出现频率。为了防止零概率的出现，常常对 $\theta_{i|j}$ 进行拉普拉斯平滑：

$\theta_{i|j}=\frac{\sum_{k=1}^NI(y_k=c_j)N(t_j,x_k)+1}{\sum_{k=1}^NI(y_k=c_j)\sum_{i'=1}^VN(t_{i'},x_k)+V}$

例子

利用朴素贝叶斯模型，在降维后的文本分类训练集（表5.7）上进行模型学习，分别令 $t_1=$ 计算机，t2 = 排球，t3 = 运动会，t4 = 高校，t5 = 大学，y = 1表示教育类，y = 0表示体育类，可以得到如下参数估计结果。

$\pi_j$	$p(y=1)=0.5$	$p(y=0)=0.5$
$\theta_{i\|j}$	$\theta_{1\|1}=p(t_1\|c_1)=\frac{2+1+0+0+1}{3+0+0+1+2+5}=\frac{4}{11}$	$p(t_1\|y=0)=1/10$
	$p(t_2\|y=1)=\frac{1}{11}$	$p(t_2\|y=0)=3/10$
	$p(t_3\|y=1)=\frac{1}{11}$	$p(t_3\|y=0)=3/10$
	$p(t_4\|y=1)=\frac{2}{11}$	$p(t_4\|y=0)=1/10$
	$p(t_5\|y=1)=\frac{3}{11}$	$p(t_5\|y=0)=2/10$

基于上述模型参数，对test_d1的文本表示为 $x_1$ ，它与教育类和体育类的联合概率分别为

$p(x_1,y=1)=p(y=1)p(t_5|y=1)^2=0.037$

$p(x_1,y=0)=p(y=0)p(t_5|y=0)^2=0.020$

根据贝叶斯分布可得属于两类的后验概率分布为：

$p(y=1|x_1) = 0.649$

$p(y=0|x_1)=0.351$

所以可以预测 $test\_d_1$ 属于教育类。

同理可以计算得 $test\_d_2$ 属于体育类。

sklearn朴素贝叶斯代码实现

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# 示例数据（文本和对应的标签）
corpus = [
    ("This is a positive statement", "positive"),
    ("I feel great", "positive"),
    ("This is a negative statement", "negative"),
    ("I don't like this", "negative"),
    ("I feel awful", "negative")
]

# 将数据分为训练集和测试集
texts, labels = zip(*corpus)
X_train, X_test, y_train, y_test = train_test_split(texts, labels, test_size=0.2, random_state=42)

# 将文本转换为词频向量
vectorizer = CountVectorizer()
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

# 训练朴素贝叶斯模型
nb_classifier = MultinomialNB()
nb_classifier.fit(X_train_vectorized, y_train)

# 在测试集上进行预测
y_pred = nb_classifier.predict(X_test_vectorized)

# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

# 打印分类报告
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

$\pi_j$	$p(y=1)=0.5$	$p(y=0)=0.5$
$\theta_{i\|j}$	$\theta_{1\|1}=p(t_1\|c_1)=\frac{2+1+0+0+1}{3+0+0+1+2+5}=\frac{4}{11}$	$p(t_1\|y=0)=1/10$
	$p(t_2\|y=1)=\frac{1}{11}$	$p(t_2\|y=0)=3/10$
	$p(t_3\|y=1)=\frac{1}{11}$	$p(t_3\|y=0)=3/10$
	$p(t_4\|y=1)=\frac{2}{11}$	$p(t_4\|y=0)=1/10$
	$p(t_5\|y=1)=\frac{3}{11}$	$p(t_5\|y=0)=2/10$