您好,欢迎来到华拓科技网。
搜索
您的当前位置:首页2.2_最小风险贝叶斯决策

2.2_最小风险贝叶斯决策

来源:华拓科技网

背景

在最小错误率的情况, 我们考虑的是要最小化错误率 p ( e ∣ x ) p(e|\mathbf{x}) p(ex),从而最大化后验概率 P ( ω i ∣ x ) P(\omega_i|\mathbf{x}) P(ωix), 但是如果分类错误,对应造成的风险是不一样的。
就是将样本 x \mathbf{x} x分错成 ω 1 \omega_1 ω1和分错成 ω 2 \omega_2 ω2所造成的损失不同,比如将病人有病判断成无病比无病判断为有病造成的风险损失更大(因为病人将失去进一步检查而错失治疗)。

接下来,我们对问题做一个表述:
(1) 状态空间 Ω \Omega Ω 由 c 个可能的状态(类)组成: Ω = { ω 1 , ω 2 , … , ω c } \Omega = \{\omega_1, \omega_2, \dots, \omega_c\} Ω={ω1,ω2,,ωc}
(2) 对于样本 x \mathbf{x} x,采取的决策组成决策空间 A \mathscr{A} A,由k个决策组成, A = { α 1 , α 2 , … , α k } \mathscr{A} = \{\alpha_1, \alpha_2, \dots, \alpha_k\} A={α1,α2,,αk}, 其中 α i \alpha_i αi代表对样本 x \mathbf{x} x做出的第i种决策;同时注意这里的决策数k并不一定等于类别的个数c,即不是每一个决策都会将样本分到属于某一类,这其中还包括认为样本不属于任何一类的决策(表示拒绝决策)。
(3) 设对属于 ω j \omega_j ωj类的样本 x \mathbf{x} x,采取决策 α i \alpha_i αi所带来的损失为:
λ ( α i , ω j ) , i = 1 , … , k , j = 1 , … , c (1) \lambda(\alpha_i, \omega_j), \quad i=1,\dots, k, \quad j=1, \dots, c \tag{1} λ(αi,ωj),i=1,,k,j=1,,c(1)
式(1)被称作损失函数,代表采取决策 α i \alpha_i αi, 将样本划分为 ω j \omega_j ωj所造成的损失。

有了上述的表述,我们知道给定一个样本 x \mathbf{x} x, 同时给定一个决策比如 α 1 \alpha_1 α1, 这时对于决策 α 1 \alpha_1 α1所确定的不同类别造成了对应不同的损失,即 λ ( α 1 , ω 1 ) , λ ( α 1 , ω 2 ) , . . . , λ ( α 1 , ω c ) \lambda(\alpha_1, \omega_1), \lambda(\alpha_1, \omega_2),...,\lambda(\alpha_1, \omega_c) λ(α1,ω1),λ(α1,ω2),...,λ(α1,ωc), 对这些损失进行加权平均,这时我们就得到了所谓的条件期望损失,给定的条件是样本 x \mathbf{x} x和决策 α i \alpha_i αi, 变量是 ω j \omega_j ωj, 则:
R ( α i ∣ x ) = E [ λ ( α i , ω j ) ∣ x , α i ] = ∑ j = 1 c λ ( α i , ω j ) P ( ω j ∣ x ) i = 1 , 2 , … , k (2) R(\alpha_i|\mathbf{x}) = E[\lambda(\alpha_i, \omega_j)|\mathbf{x}, \alpha_i] = \sum\limits_{j=1}^c \lambda(\alpha_i, \omega_j)P(\omega_j|\mathbf{x}) \quad i=1,2,\dots,k \tag{2} R(αix)=E[λ(αi,ωj)x,αi]=j=1cλ(αi,ωj)P(ωjx)i=1,2,,k(2)
式(2)代表了给定样本 x \mathbf{x} x和决策 α i \alpha_i αi, 对 x \mathbf{x} x实际所属不同类别造成的损失的各种可能的平均。这个式子得到了一个样本不同决策下的条件期望损失,即
R ( α 1 ∣ x ) , R ( α 2 ∣ x ) , … , R ( α k ∣ x ) (3) R(\alpha_1|\mathbf{x}), \quad R(\alpha_2|\mathbf{x}), \quad \dots, \quad R(\alpha_k|\mathbf{x}) \tag{3} R(α1x),R(α2x),,R(αkx)(3)
如果设 α ( x ) = α i \alpha(\mathbf{x})=\alpha_i α(x)=αi,那么上式(3)可以写成:
R ( α ( x ) ∣ x ) (4) R(\alpha(\mathbf{x})|\mathbf{x}) \tag{4} R(α(x)x)(4)
这就是一个样本的期望损失了,那么对于所有样本呢?综合的期望损失如下:
R ( α ) = E [ R ( α ( x ) ∣ x ) ] = ∫ R ( α ( x ) ∣ x ) p ( x ) d x (5) R(\alpha) = E[R(\alpha(\mathbf{x})|\mathbf{x})] = \int R(\alpha(\mathbf{x})|\mathbf{x})p(\mathbf{x})d\mathbf{x} \tag{5} R(α)=E[R(α(x)x)]=R(α(x)x)p(x)dx(5)
这就是对所有样本 x \mathbf{x} x, 采取决策规则 α ( x ) \alpha(\mathbf{x}) α(x),造成的平均损失,即期望风险

目标:最小化这一期望风险:
min ⁡ R ( α ) = min ⁡ ∫ R ( α ( x ) ∣ x ) p ( x ) d x (6) \min R(\alpha) = \min \int R(\alpha(\mathbf{x})|\mathbf{x})p(\mathbf{x})d\mathbf{x} \tag{6} minR(α)=minR(α(x)x)p(x)dx(6)
上式中, p ( x ) p(\mathbf{x}) p(x)和决策无关,故
min ⁡ R ( α ( x ) ∣ x ) (7) \min R(\alpha(\mathbf{x})|\mathbf{x}) \tag{7} minR(α(x)x)(7)

α ( x ) = α i \alpha(\mathbf{x})=\alpha_i α(x)=αi, 所以最小化贝叶斯决策就是:
若 R ( α i ∣ x ) = min ⁡ j = 1 , . . . , k R ( α j ∣ x ) , 则 α = α i (8) 若R(\alpha_i|\mathbf{x}) = \min_{j=1,...,k} R(\alpha_j|\mathbf{x}), \quad 则\alpha=\alpha_i \tag{8} R(αix)=j=1,...,kminR(αjx),α=αi(8)

求上式最小条件期望风险的步骤为:
(1) 利用贝叶斯定理计算后验概率: P ( ω j ∣ x ) = P ( x ∣ ω j ) P ( ω j ) P ( x ) P(\omega_j|\mathbf{x}) = \frac{P(\mathbf{x}|\omega_j)P(\omega_j)}{P(\mathbf{x})} P(ωjx)=P(x)P(xωj)P(ωj)
(2) 利用决策表:求 λ ( α i , ω j ) P ( ω j ∣ x ) \lambda(\alpha_i, \omega_j)P(\omega_j|\mathbf{x}) λ(αi,ωj)P(ωjx)
= > 求 R ( α i ∣ x ) = ∑ j = 1 c λ ( α i , ω j ) P ( ω j ∣ x ) , i = 1 , 2 , . . . , k 算出每个 α i 下的风险 => 求R(\alpha_i|\mathbf{x}) = \sum_{j=1}^c \lambda(\alpha_i, \omega_j)P(\omega_j|\mathbf{x}), \quad i=1,2,...,k \\ 算出每个\alpha_i下的风险 =>R(αix)=j=1cλ(αi,ωj)P(ωjx),i=1,2,...,k算出每个αi下的风险
(3) 比较 R ( α i ∣ x ) , i = 1 , 2 , . . . , k R(\alpha_i|\mathbf{x}), \quad i=1,2,...,k R(αix),i=1,2,...,k
= > a = arg min ⁡ i = 1 , … , k R ( α i ∣ x ) => a= \argmin_{i=1,\dots,k} R(\alpha_i|\mathbf{x}) =>a=i=1,,kargminR(αix)

在两类情况下,且没有拒绝,则
R ( α i ∣ x ) = ∑ j = 1 2 λ ( α i , ω j ) P ( ω j ∣ x ) R(\alpha_i|\mathbf{x}) = \sum\limits_{j=1}^2 \lambda(\alpha_i, \omega_j)P(\omega_j|\mathbf{x}) R(αix)=j=12λ(αi,ωj)P(ωjx)
= > λ ( α i , ω 1 ) P ( ω 1 ∣ x ) + λ ( α i , ω 2 ) P ( ω 2 ∣ x ) , i = 1 , 2 (9) => \lambda(\alpha_i, \omega_1)P(\omega_1|\mathbf{x}) + \lambda(\alpha_i, \omega_2)P(\omega_2|\mathbf{x}), \quad i=1,2 \tag{9} =>λ(αi,ω1)P(ω1x)+λ(αi,ω2)P(ω2x),i=1,2(9)
由此我们可以得到 R ( α 1 ∣ x ) R(\alpha_1|\mathbf{x}) R(α1x) R ( α 2 ∣ x ) R(\alpha_2|\mathbf{x}) R(α2x),两者选最小。得如下决策规则:
R ( α 1 ∣ x ) ≷ R ( α 2 ∣ x ) , x ∈ { ω 1 ω 2 (10) R(\alpha_1|\mathbf{x}) \gtrless R(\alpha_2|\mathbf{x}), \quad \mathbf{x} \in \begin{cases}\omega_1 \\ \omega_2\end{cases} \tag{10} R(α1x)R(α2x),x{ω1ω2(10)
使用 λ 11 \lambda_{11} λ11表示 λ ( α 1 , ω 1 ) \lambda(\alpha_1, \omega_1) λ(α1,ω1), 则有:
= > λ 11 P ( ω 1 ∣ x ) + λ 12 P ( ω 2 ∣ x ) ≷ λ 21 P ( ω 1 ∣ x ) + λ 22 P ( ω 2 ∣ x ) , x ∈ { ω 1 ω 2 => \lambda_{11}P(\omega_1|\mathbf{x})+\lambda_{12}P(\omega_2|\mathbf{x}) \gtrless \lambda_{21}P(\omega_1|\mathbf{x}) + \lambda_{22}P(\omega_2|\mathbf{x}), \quad \mathbf{x}\in \begin{cases}\omega_1 \\ \omega_2\end{cases} =>λ11P(ω1x)+λ12P(ω2x)λ21P(ω1x)+λ22P(ω2x),x{ω1ω2
= > ( λ 11 − λ 21 ) P ( ω 1 ∣ x ) ≷ ( λ 22 − λ 12 ) P ( ω 2 ∣ x ) => (\lambda_{11}-\lambda_{21})P(\omega_1|\mathbf{x}) \gtrless (\lambda_{22}-\lambda_{12})P(\omega_2|\mathbf{x}) =>(λ11λ21)P(ω1x)(λ22λ12)P(ω2x)
假设 λ 11 < λ 21 , λ 22 < λ 12 \lambda_{11}<\lambda_{21},\quad \lambda_{22}<\lambda_{12} λ11<λ21,λ22<λ12,即决策对的风险总是小于决策错的,
= > P ( ω 1 ∣ x ) P ( ω 2 ∣ x ) = P ( x ∣ ω 1 ) P ( ω 1 ) P ( x ∣ ω 2 ) P ( ω 2 ) ≷ λ 22 − λ 12 λ 11 − λ 21 => \frac{P(\omega_1|\mathbf{x})}{P(\omega_2|\mathbf{x})} = \frac{P(\mathbf{x}|\omega_1)P(\omega_1)}{P(\mathbf{x}|\omega_2)P(\omega_2)} \gtrless \frac{\lambda_{22}-\lambda_{12}}{\lambda_{11}-\lambda_{21}} =>P(ω2x)P(ω1x)=P(xω2)P(ω2)P(xω1)P(ω1)λ11λ21λ22λ12
= > P ( x ∣ ω 1 ) P ( x ∣ ω 2 ) ≷ ( λ 22 − λ 12 ) P ( ω 2 ) ( λ 11 − λ 21 ) P ( ω 1 ) = c , x ∈ { ω 1 ω 2 (11) => \frac{P(\mathbf{x}|\omega_1)}{P(\mathbf{x}|\omega_2)} \gtrless \frac{(\lambda_{22}-\lambda_{12})P(\omega_2)}{(\lambda_{11}-\lambda_{21})P(\omega_1)}=c, \quad \mathbf{x} \in \begin{cases}\omega_1 \\ \omega_2\end{cases} \tag{11} =>P(xω2)P(xω1)(λ11λ21)P(ω1)(λ22λ12)P(ω2)=c,x{ω1ω2(11)

l ( x ) = P ( x ∣ ω 1 ) P ( x ∣ ω 2 ) l(\mathbf{x})=\frac{P(\mathbf{x}|\omega_1)}{P(\mathbf{x}|\omega_2)} l(x)=P(xω2)P(xω1),这是似然比函数,可以看到,当 λ 11 = λ 22 = 0 \lambda_{11}=\lambda_{22}=0 λ11=λ22=0时,这是决策对了没有损失,且当 λ 12 = λ 21 = c \lambda_{12}=\lambda_{21}=c λ12=λ21=c, 两种决策错了损失相同,那么这时就相当于不用考虑不同决策造成的风险问题,因为此时风险都一致,这就和最小错误率的情况一致了,依然是最大化后验概率。

本节考虑了在有风险的情况下,该选择什么样的决策,同时我们也发现,在风险一致的情况下,最小风险贝叶斯决策就是最小错误率贝叶斯决策。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo6.cn 版权所有 赣ICP备2024042791号-9

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务