在最小错误率的情况, 我们考虑的是要最小化错误率
p
(
e
∣
x
)
p(e|\mathbf{x})
p(e∣x),从而最大化后验概率
P
(
ω
i
∣
x
)
P(\omega_i|\mathbf{x})
P(ωi∣x), 但是如果分类错误,对应造成的风险是不一样的。
就是将样本
x
\mathbf{x}
x分错成
ω
1
\omega_1
ω1和分错成
ω
2
\omega_2
ω2所造成的损失不同,比如将病人有病判断成无病比无病判断为有病造成的风险损失更大(因为病人将失去进一步检查而错失治疗)。
接下来,我们对问题做一个表述:
(1) 状态空间
Ω
\Omega
Ω 由 c 个可能的状态(类)组成:
Ω
=
{
ω
1
,
ω
2
,
…
,
ω
c
}
\Omega = \{\omega_1, \omega_2, \dots, \omega_c\}
Ω={ω1,ω2,…,ωc}
(2) 对于样本
x
\mathbf{x}
x,采取的决策组成决策空间
A
\mathscr{A}
A,由k个决策组成,
A
=
{
α
1
,
α
2
,
…
,
α
k
}
\mathscr{A} = \{\alpha_1, \alpha_2, \dots, \alpha_k\}
A={α1,α2,…,αk}, 其中
α
i
\alpha_i
αi代表对样本
x
\mathbf{x}
x做出的第i种决策;同时注意这里的决策数k并不一定等于类别的个数c,即不是每一个决策都会将样本分到属于某一类,这其中还包括认为样本不属于任何一类的决策(表示拒绝决策)。
(3) 设对属于
ω
j
\omega_j
ωj类的样本
x
\mathbf{x}
x,采取决策
α
i
\alpha_i
αi所带来的损失为:
λ
(
α
i
,
ω
j
)
,
i
=
1
,
…
,
k
,
j
=
1
,
…
,
c
(1)
\lambda(\alpha_i, \omega_j), \quad i=1,\dots, k, \quad j=1, \dots, c \tag{1}
λ(αi,ωj),i=1,…,k,j=1,…,c(1)
式(1)被称作损失函数,代表采取决策
α
i
\alpha_i
αi, 将样本划分为
ω
j
\omega_j
ωj所造成的损失。
有了上述的表述,我们知道给定一个样本
x
\mathbf{x}
x, 同时给定一个决策比如
α
1
\alpha_1
α1, 这时对于决策
α
1
\alpha_1
α1所确定的不同类别造成了对应不同的损失,即
λ
(
α
1
,
ω
1
)
,
λ
(
α
1
,
ω
2
)
,
.
.
.
,
λ
(
α
1
,
ω
c
)
\lambda(\alpha_1, \omega_1), \lambda(\alpha_1, \omega_2),...,\lambda(\alpha_1, \omega_c)
λ(α1,ω1),λ(α1,ω2),...,λ(α1,ωc), 对这些损失进行加权平均,这时我们就得到了所谓的条件期望损失,给定的条件是样本
x
\mathbf{x}
x和决策
α
i
\alpha_i
αi, 变量是
ω
j
\omega_j
ωj, 则:
R
(
α
i
∣
x
)
=
E
[
λ
(
α
i
,
ω
j
)
∣
x
,
α
i
]
=
∑
j
=
1
c
λ
(
α
i
,
ω
j
)
P
(
ω
j
∣
x
)
i
=
1
,
2
,
…
,
k
(2)
R(\alpha_i|\mathbf{x}) = E[\lambda(\alpha_i, \omega_j)|\mathbf{x}, \alpha_i] = \sum\limits_{j=1}^c \lambda(\alpha_i, \omega_j)P(\omega_j|\mathbf{x}) \quad i=1,2,\dots,k \tag{2}
R(αi∣x)=E[λ(αi,ωj)∣x,αi]=j=1∑cλ(αi,ωj)P(ωj∣x)i=1,2,…,k(2)
式(2)代表了给定样本
x
\mathbf{x}
x和决策
α
i
\alpha_i
αi, 对
x
\mathbf{x}
x实际所属不同类别造成的损失的各种可能的平均。这个式子得到了一个样本不同决策下的条件期望损失,即
R
(
α
1
∣
x
)
,
R
(
α
2
∣
x
)
,
…
,
R
(
α
k
∣
x
)
(3)
R(\alpha_1|\mathbf{x}), \quad R(\alpha_2|\mathbf{x}), \quad \dots, \quad R(\alpha_k|\mathbf{x}) \tag{3}
R(α1∣x),R(α2∣x),…,R(αk∣x)(3)
如果设
α
(
x
)
=
α
i
\alpha(\mathbf{x})=\alpha_i
α(x)=αi,那么上式(3)可以写成:
R
(
α
(
x
)
∣
x
)
(4)
R(\alpha(\mathbf{x})|\mathbf{x}) \tag{4}
R(α(x)∣x)(4)
这就是一个样本的期望损失了,那么对于所有样本呢?综合的期望损失如下:
R
(
α
)
=
E
[
R
(
α
(
x
)
∣
x
)
]
=
∫
R
(
α
(
x
)
∣
x
)
p
(
x
)
d
x
(5)
R(\alpha) = E[R(\alpha(\mathbf{x})|\mathbf{x})] = \int R(\alpha(\mathbf{x})|\mathbf{x})p(\mathbf{x})d\mathbf{x} \tag{5}
R(α)=E[R(α(x)∣x)]=∫R(α(x)∣x)p(x)dx(5)
这就是对所有样本
x
\mathbf{x}
x, 采取决策规则
α
(
x
)
\alpha(\mathbf{x})
α(x),造成的平均损失,即期望风险。
目标:最小化这一期望风险:
min
R
(
α
)
=
min
∫
R
(
α
(
x
)
∣
x
)
p
(
x
)
d
x
(6)
\min R(\alpha) = \min \int R(\alpha(\mathbf{x})|\mathbf{x})p(\mathbf{x})d\mathbf{x} \tag{6}
minR(α)=min∫R(α(x)∣x)p(x)dx(6)
上式中,
p
(
x
)
p(\mathbf{x})
p(x)和决策无关,故
min
R
(
α
(
x
)
∣
x
)
(7)
\min R(\alpha(\mathbf{x})|\mathbf{x}) \tag{7}
minR(α(x)∣x)(7)
由
α
(
x
)
=
α
i
\alpha(\mathbf{x})=\alpha_i
α(x)=αi, 所以最小化贝叶斯决策就是:
若
R
(
α
i
∣
x
)
=
min
j
=
1
,
.
.
.
,
k
R
(
α
j
∣
x
)
,
则
α
=
α
i
(8)
若R(\alpha_i|\mathbf{x}) = \min_{j=1,...,k} R(\alpha_j|\mathbf{x}), \quad 则\alpha=\alpha_i \tag{8}
若R(αi∣x)=j=1,...,kminR(αj∣x),则α=αi(8)
求上式最小条件期望风险的步骤为:
(1) 利用贝叶斯定理计算后验概率:
P
(
ω
j
∣
x
)
=
P
(
x
∣
ω
j
)
P
(
ω
j
)
P
(
x
)
P(\omega_j|\mathbf{x}) = \frac{P(\mathbf{x}|\omega_j)P(\omega_j)}{P(\mathbf{x})}
P(ωj∣x)=P(x)P(x∣ωj)P(ωj)
(2) 利用决策表:求
λ
(
α
i
,
ω
j
)
P
(
ω
j
∣
x
)
\lambda(\alpha_i, \omega_j)P(\omega_j|\mathbf{x})
λ(αi,ωj)P(ωj∣x)
=
>
求
R
(
α
i
∣
x
)
=
∑
j
=
1
c
λ
(
α
i
,
ω
j
)
P
(
ω
j
∣
x
)
,
i
=
1
,
2
,
.
.
.
,
k
算出每个
α
i
下的风险
=> 求R(\alpha_i|\mathbf{x}) = \sum_{j=1}^c \lambda(\alpha_i, \omega_j)P(\omega_j|\mathbf{x}), \quad i=1,2,...,k \\ 算出每个\alpha_i下的风险
=>求R(αi∣x)=j=1∑cλ(αi,ωj)P(ωj∣x),i=1,2,...,k算出每个αi下的风险
(3) 比较
R
(
α
i
∣
x
)
,
i
=
1
,
2
,
.
.
.
,
k
R(\alpha_i|\mathbf{x}), \quad i=1,2,...,k
R(αi∣x),i=1,2,...,k
=
>
a
=
arg min
i
=
1
,
…
,
k
R
(
α
i
∣
x
)
=> a= \argmin_{i=1,\dots,k} R(\alpha_i|\mathbf{x})
=>a=i=1,…,kargminR(αi∣x)
在两类情况下,且没有拒绝,则
R
(
α
i
∣
x
)
=
∑
j
=
1
2
λ
(
α
i
,
ω
j
)
P
(
ω
j
∣
x
)
R(\alpha_i|\mathbf{x}) = \sum\limits_{j=1}^2 \lambda(\alpha_i, \omega_j)P(\omega_j|\mathbf{x})
R(αi∣x)=j=1∑2λ(αi,ωj)P(ωj∣x)
=
>
λ
(
α
i
,
ω
1
)
P
(
ω
1
∣
x
)
+
λ
(
α
i
,
ω
2
)
P
(
ω
2
∣
x
)
,
i
=
1
,
2
(9)
=> \lambda(\alpha_i, \omega_1)P(\omega_1|\mathbf{x}) + \lambda(\alpha_i, \omega_2)P(\omega_2|\mathbf{x}), \quad i=1,2 \tag{9}
=>λ(αi,ω1)P(ω1∣x)+λ(αi,ω2)P(ω2∣x),i=1,2(9)
由此我们可以得到
R
(
α
1
∣
x
)
R(\alpha_1|\mathbf{x})
R(α1∣x)和
R
(
α
2
∣
x
)
R(\alpha_2|\mathbf{x})
R(α2∣x),两者选最小。得如下决策规则:
R
(
α
1
∣
x
)
≷
R
(
α
2
∣
x
)
,
x
∈
{
ω
1
ω
2
(10)
R(\alpha_1|\mathbf{x}) \gtrless R(\alpha_2|\mathbf{x}), \quad \mathbf{x} \in \begin{cases}\omega_1 \\ \omega_2\end{cases} \tag{10}
R(α1∣x)≷R(α2∣x),x∈{ω1ω2(10)
使用
λ
11
\lambda_{11}
λ11表示
λ
(
α
1
,
ω
1
)
\lambda(\alpha_1, \omega_1)
λ(α1,ω1), 则有:
=
>
λ
11
P
(
ω
1
∣
x
)
+
λ
12
P
(
ω
2
∣
x
)
≷
λ
21
P
(
ω
1
∣
x
)
+
λ
22
P
(
ω
2
∣
x
)
,
x
∈
{
ω
1
ω
2
=> \lambda_{11}P(\omega_1|\mathbf{x})+\lambda_{12}P(\omega_2|\mathbf{x}) \gtrless \lambda_{21}P(\omega_1|\mathbf{x}) + \lambda_{22}P(\omega_2|\mathbf{x}), \quad \mathbf{x}\in \begin{cases}\omega_1 \\ \omega_2\end{cases}
=>λ11P(ω1∣x)+λ12P(ω2∣x)≷λ21P(ω1∣x)+λ22P(ω2∣x),x∈{ω1ω2
=
>
(
λ
11
−
λ
21
)
P
(
ω
1
∣
x
)
≷
(
λ
22
−
λ
12
)
P
(
ω
2
∣
x
)
=> (\lambda_{11}-\lambda_{21})P(\omega_1|\mathbf{x}) \gtrless (\lambda_{22}-\lambda_{12})P(\omega_2|\mathbf{x})
=>(λ11−λ21)P(ω1∣x)≷(λ22−λ12)P(ω2∣x)
假设
λ
11
<
λ
21
,
λ
22
<
λ
12
\lambda_{11}<\lambda_{21},\quad \lambda_{22}<\lambda_{12}
λ11<λ21,λ22<λ12,即决策对的风险总是小于决策错的,
=
>
P
(
ω
1
∣
x
)
P
(
ω
2
∣
x
)
=
P
(
x
∣
ω
1
)
P
(
ω
1
)
P
(
x
∣
ω
2
)
P
(
ω
2
)
≷
λ
22
−
λ
12
λ
11
−
λ
21
=> \frac{P(\omega_1|\mathbf{x})}{P(\omega_2|\mathbf{x})} = \frac{P(\mathbf{x}|\omega_1)P(\omega_1)}{P(\mathbf{x}|\omega_2)P(\omega_2)} \gtrless \frac{\lambda_{22}-\lambda_{12}}{\lambda_{11}-\lambda_{21}}
=>P(ω2∣x)P(ω1∣x)=P(x∣ω2)P(ω2)P(x∣ω1)P(ω1)≷λ11−λ21λ22−λ12
=
>
P
(
x
∣
ω
1
)
P
(
x
∣
ω
2
)
≷
(
λ
22
−
λ
12
)
P
(
ω
2
)
(
λ
11
−
λ
21
)
P
(
ω
1
)
=
c
,
x
∈
{
ω
1
ω
2
(11)
=> \frac{P(\mathbf{x}|\omega_1)}{P(\mathbf{x}|\omega_2)} \gtrless \frac{(\lambda_{22}-\lambda_{12})P(\omega_2)}{(\lambda_{11}-\lambda_{21})P(\omega_1)}=c, \quad \mathbf{x} \in \begin{cases}\omega_1 \\ \omega_2\end{cases} \tag{11}
=>P(x∣ω2)P(x∣ω1)≷(λ11−λ21)P(ω1)(λ22−λ12)P(ω2)=c,x∈{ω1ω2(11)
令 l ( x ) = P ( x ∣ ω 1 ) P ( x ∣ ω 2 ) l(\mathbf{x})=\frac{P(\mathbf{x}|\omega_1)}{P(\mathbf{x}|\omega_2)} l(x)=P(x∣ω2)P(x∣ω1),这是似然比函数,可以看到,当 λ 11 = λ 22 = 0 \lambda_{11}=\lambda_{22}=0 λ11=λ22=0时,这是决策对了没有损失,且当 λ 12 = λ 21 = c \lambda_{12}=\lambda_{21}=c λ12=λ21=c, 两种决策错了损失相同,那么这时就相当于不用考虑不同决策造成的风险问题,因为此时风险都一致,这就和最小错误率的情况一致了,依然是最大化后验概率。
本节考虑了在有风险的情况下,该选择什么样的决策,同时我们也发现,在风险一致的情况下,最小风险贝叶斯决策就是最小错误率贝叶斯决策。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- huatuo6.cn 版权所有 赣ICP备2024042791号-9
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务