贝叶斯统计:Inverted Beta与Three Parameter Beta分布
- Beta分布
- Inverted Beta与Three Parameter Beta
- TPB-Normal Mixture
这一篇介绍两个基于beta分布延申出来的在贝叶斯统计中非常常用的分布——Inverted Beta(IB)与Three Parameter Beta(TPB)。
Beta分布
Beta分布记为
B
e
t
a
(
α
,
β
)
Beta(\alpha,\beta)
Beta(α,β),它的概率密度是
f
(
x
)
=
1
B
(
α
,
β
)
x
α
−
1
(
1
−
x
)
β
−
1
,
x
∈
(
0
,
1
)
B
(
α
,
β
)
=
Γ
(
α
)
Γ
(
β
)
Γ
(
α
+
β
)
,
α
,
β
>
0
f(x) = \frac{1}{\Beta (\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1},x \in (0,1) \\ B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)},\alpha,\beta>0
f(x)=B(α,β)1xα−1(1−x)β−1,x∈(0,1)B(α,β)=Γ(α+β)Γ(α)Γ(β),α,β>0
其中 Γ ( ) \Gamma() Γ()是gamma函数, B ( ) \Beta() B()是beta函数。在贝叶斯统计中,如果样本服从二项分布,则Beta分布是样本的共轭分布;二项分布的多元推广是多项分布,Beta分布的多元推广是Dirichlet分布,而Dirichlet分布也是多项分布样本的共轭分布。
Beta分布的参数 α , β \alpha,\beta α,β可以确定唯一一个Beta分布,但 α , β \alpha,\beta α,β可以用其他参数来表示,用两个参数表示Beta分布的表示方法被称为Two Parameter Beta,用四个参数表示Beta分布的表示方法被称为Four Parameter Beta,下面介绍两个常见的两参数表示:
均值与样本量表示
用
μ
\mu
μ表示
B
e
t
a
(
α
,
β
)
Beta(\alpha,\beta)
Beta(α,β)的均值,用
ν
\nu
ν表示
α
+
β
\alpha+\beta
α+β,在贝叶斯统计中对于
α
+
β
\alpha+\beta
α+β的解释与样本量有关,所以这种两参数表示被称为均值与样本量表示,
α
=
μ
ν
,
β
=
(
1
−
μ
)
ν
\alpha=\mu \nu, \beta=(1-\mu)\nu
α=μν,β=(1−μ)ν
均值与方差
均值与方差是最容易想到的两参数表示了,用
μ
\mu
μ表示
B
e
t
a
(
α
,
β
)
Beta(\alpha,\beta)
Beta(α,β)的均值,
v
a
r
var
var表示
B
e
t
a
(
α
,
β
)
Beta(\alpha,\beta)
Beta(α,β)的方差,
α
=
μ
(
μ
(
1
−
μ
)
v
a
r
−
1
)
,
β
=
(
1
−
μ
)
(
μ
(
1
−
μ
)
v
a
r
−
1
)
\alpha=\mu \left( \frac{\mu(1-\mu)}{var}-1 \right),\beta=(1-\mu) \left( \frac{\mu(1-\mu)}{var}-1 \right)
α=μ(varμ(1−μ)−1),β=(1−μ)(varμ(1−μ)−1)
因为 α + β > 0 \alpha+\beta>0 α+β>0,有 v a r < μ ( 1 − μ ) var<\mu(1-\mu) var<μ(1−μ)。
四参数beta
对
x
x
x做变换,
y
=
x
(
c
−
a
)
+
a
y=x(c-a)+a
y=x(c−a)+a,
y
∈
(
a
,
c
)
y \in (a,c)
y∈(a,c),使得
B
e
t
a
Beta
Beta分布的支撑集变为
(
a
,
c
)
(a,c)
(a,c),变换后概率密度为
f
(
y
;
α
,
β
,
a
,
c
)
=
(
y
−
a
c
−
a
)
α
−
1
(
c
−
y
c
−
a
)
β
−
1
(
c
−
a
)
B
(
α
,
β
)
f(y;\alpha,\beta,a,c) = \frac{(\frac{y-a}{c-a})^{\alpha-1} (\frac{c-y}{c-a})^{\beta-1}}{(c-a)\Beta(\alpha,\beta)}
f(y;α,β,a,c)=(c−a)B(α,β)(c−ay−a)α−1(c−ac−y)β−1
这个分布被称为四参数beta,它的作用是把Beta分布从 ( 0 , 1 ) (0,1) (0,1)推广到更大或者更小的区间 ( a , c ) (a,c) (a,c)上。
Inverted Beta与Three Parameter Beta
Inverted Beta分布也叫第二类Beta分布(Beta density of the second kind),记为
I
B
(
β
,
α
)
IB(\beta,\alpha)
IB(β,α),其中
α
,
β
>
0
\alpha,\beta>0
α,β>0,假设
X
∼
I
B
(
β
,
α
)
X \sim IB(\beta,\alpha)
X∼IB(β,α),它的概率密度是
f
(
x
)
=
1
B
(
α
,
β
)
x
α
−
1
(
1
+
x
)
−
(
α
+
β
)
,
x
>
0
f(x) =\frac{1}{\Beta(\alpha,\beta)} x^{\alpha-1}(1+x)^{-(\alpha+\beta)},x>0
f(x)=B(α,β)1xα−1(1+x)−(α+β),x>0
下表是Kowal et. al (2019) Dynamic Shrinkage Process的总结:
Three Parameter Beta分布记为
T
P
B
(
α
,
β
,
τ
2
)
TPB(\alpha,\beta,\tau^2)
TPB(α,β,τ2),如果
X
∼
T
P
B
(
α
,
β
,
τ
2
)
X \sim TPB(\alpha,\beta,\tau^2)
X∼TPB(α,β,τ2),它的概率密度是
f
(
x
)
=
(
τ
2
)
β
B
(
α
,
β
)
x
β
−
1
(
1
−
x
)
α
−
1
[
1
−
(
1
−
τ
2
)
x
]
−
(
α
+
β
)
,
x
∈
(
0
,
1
)
f(x) = \frac{(\tau^2)^{\beta}}{\Beta(\alpha,\beta)}x^{\beta-1}(1-x)^{\alpha-1}[1-(1-\tau^2)x]^{-(\alpha+\beta)} ,x \in (0,1)
f(x)=B(α,β)(τ2)βxβ−1(1−x)α−1[1−(1−τ2)x]−(α+β),x∈(0,1)
假设
τ
=
1
\tau=1
τ=1,则
f
(
x
)
=
x
β
−
1
(
1
−
x
)
α
−
1
B
(
α
,
β
)
f(x)=\frac{x^{\beta-1}(1-x)^{\alpha-1}}{\Beta(\alpha,\beta)}
f(x)=B(α,β)xβ−1(1−x)α−1
也就是
T
P
B
(
α
,
β
,
1
)
=
B
e
t
a
(
β
,
α
)
TPB(\alpha,\beta,1)=Beta(\beta,\alpha)
TPB(α,β,1)=Beta(β,α)。为了研究Beta分布、IB与TPB之间的关系,再引入一个辅助分布,记为
Z
(
α
,
β
,
μ
,
σ
)
Z(\alpha,\beta,\mu,\sigma)
Z(α,β,μ,σ),它的概率密度为
f
(
z
)
=
[
exp
(
z
−
μ
σ
)
]
α
[
1
+
exp
(
z
−
μ
σ
)
]
−
(
α
+
β
)
σ
B
(
α
,
β
)
,
z
∈
R
f(z)=\frac{[\exp(\frac{z-\mu}{\sigma})]^{\alpha}[1+\exp(\frac{z-\mu}{\sigma})]^{-(\alpha+\beta)}}{\sigma \Beta(\alpha,\beta)},z \in \mathbb{R}
f(z)=σB(α,β)[exp(σz−μ)]α[1+exp(σz−μ)]−(α+β),z∈R
性质1 如果 X ∼ I B ( α , β ) X \sim IB(\alpha,\beta) X∼IB(α,β),则 1 1 + X ∼ B e t a ( α , β ) \frac{1}{1+X} \sim Beta(\alpha,\beta) 1+X1∼Beta(α,β)
性质2 如果 X ∼ I B ( α , β ) X \sim IB(\alpha,\beta) X∼IB(α,β),则 log ( X ) ∼ Z ( α , β , 0 , 1 ) \log(X) \sim Z(\alpha,\beta,0,1) log(X)∼Z(α,β,0,1)
性质3 如果 X ∼ Z ( α , β , μ , 1 ) X \sim Z(\alpha,\beta,\mu,1) X∼Z(α,β,μ,1),则 1 1 + e X ∼ T P B ( α , β , e μ ) \frac{1}{1+e^X} \sim TPB(\alpha,\beta,e^{\mu}) 1+eX1∼TPB(α,β,eμ)
证明
e
X
e^X
eX的密度核为
y
−
1
[
e
log
(
y
)
−
μ
]
α
[
1
+
e
log
(
y
)
−
μ
]
−
(
α
+
β
)
∝
y
α
−
1
(
1
+
y
/
e
μ
)
−
(
α
+
β
)
y^{-1}[e^{\log(y)-\mu}]^{\alpha}[1+e^{\log(y)-\mu}]^{-(\alpha+\beta)} \propto y^{\alpha-1}(1+y/e^{\mu})^{-(\alpha+\beta)}
y−1[elog(y)−μ]α[1+elog(y)−μ]−(α+β)∝yα−1(1+y/eμ)−(α+β)
假设
μ
=
0
\mu=0
μ=0,这个密度核为
y
α
−
1
(
1
+
y
)
−
(
α
+
β
)
y^{\alpha-1}(1+y)^{-(\alpha+\beta)}
yα−1(1+y)−(α+β)
这是 I B ( α , β ) IB(\alpha,\beta) IB(α,β)的密度核,所以 Z ( α , β , 0 , 1 ) = I B ( α , β ) Z(\alpha,\beta,0,1)=IB(\alpha,\beta) Z(α,β,0,1)=IB(α,β),性质二得证。
1
1
+
e
X
\frac{1}{1+e^X}
1+eX1的密度核为
z
−
2
(
z
−
1
−
1
)
α
−
1
[
1
+
(
z
−
1
−
1
)
/
e
μ
]
−
(
α
+
β
)
∝
z
−
2
−
(
α
−
1
)
(
1
−
z
)
α
−
1
[
z
−
1
(
z
e
μ
+
(
1
−
z
)
)
]
−
(
α
+
β
)
∝
(
1
−
z
)
α
−
1
z
β
−
1
[
z
e
μ
+
(
1
−
z
)
]
−
(
α
+
β
)
\begin{aligned} & z^{-2}(z^{-1}-1)^{\alpha-1}[1+(z^{-1}-1)/e^{\mu}]^{-(\alpha+\beta)} \\ \propto & z^{-2-(\alpha-1)}(1-z)^{\alpha-1}[z^{-1}(ze^{\mu}+(1-z))]^{-(\alpha+\beta)} \\ \propto & (1-z)^{\alpha-1}z^{\beta-1}[ze^{\mu}+(1-z)]^{-(\alpha+\beta)}\end{aligned}
∝∝z−2(z−1−1)α−1[1+(z−1−1)/eμ]−(α+β)z−2−(α−1)(1−z)α−1[z−1(zeμ+(1−z))]−(α+β)(1−z)α−1zβ−1[zeμ+(1−z)]−(α+β)
因此 1 1 + e X ∼ T P B ( α , β , e μ ) \frac{1}{1+e^X} \sim TPB(\alpha,\beta,e^{\mu}) 1+eX1∼TPB(α,β,eμ),性质三得证,结合性质二与性质三可得性质一。
TPB-Normal Mixture
之所以要引入TPB这个看起来复杂又奇怪的分布是因为它在Gaussian Mixture中作为先验有非常好的性质。
定理
在正态均值模型
μ
∼
N
(
0
,
λ
2
τ
2
)
\mu \sim N(0,\lambda^2 \tau^2)
μ∼N(0,λ2τ2)中,如果
λ
2
∼
I
B
(
α
,
β
)
\lambda^2 \sim IB(\alpha,\beta)
λ2∼IB(α,β),则给定
τ
\tau
τ时,relevant amount of shrinkage
κ
=
1
1
+
λ
2
τ
2
∼
T
P
B
(
α
,
β
,
τ
2
)
\kappa=\frac{1}{1+\lambda^2\tau^2} \sim TPB(\alpha,\beta,\tau^2)
κ=1+λ2τ21∼TPB(α,β,τ2)。
证明
如果
τ
=
1
\tau=1
τ=1,根据前文性质二、三可以直接得到这个定理;如果
τ
≠
1
\tau \ne 1
τ=1,考虑
x
=
λ
2
τ
2
x=\lambda^2 \tau^2
x=λ2τ2的密度核:
(
x
/
τ
2
)
α
−
1
(
1
+
x
/
τ
2
)
−
(
α
+
β
)
(x/\tau^2)^{\alpha-1}(1+x/\tau^2)^{-(\alpha+\beta)}
(x/τ2)α−1(1+x/τ2)−(α+β)
然后考虑
z
=
1
1
+
x
z=\frac{1}{1+x}
z=1+x1的密度核:
z
−
2
(
z
−
1
−
1
)
α
−
1
[
1
+
(
z
−
1
−
1
)
/
τ
2
]
−
(
α
+
β
)
\begin{aligned} & z^{-2}(z^{-1}-1)^{\alpha-1}[1+(z^{-1}-1)/\tau^2]^{-(\alpha+\beta)} \end{aligned}
z−2(z−1−1)α−1[1+(z−1−1)/τ2]−(α+β)
所以 κ = 1 1 + λ 2 τ 2 ∼ T P B ( α , β , τ 2 ) \kappa=\frac{1}{1+\lambda^2\tau^2} \sim TPB(\alpha,\beta,\tau^2) κ=1+λ2τ21∼TPB(α,β,τ2)。