4章 変数変換
変数変換のメリット
X: 確率変数 , f(x): 密度関数を使って, 変換後の g(X): 確率変数の分布や平均, 期待値を求めたい.
つまり, 確率変数 g(X) が複雑な場合に有効.
1変数の変数変換
Y = g(X) の密度関数 h(y) を求める.
公式
h(y)=f(x)dydx
y=g(x) で表されることから, x=g−1(y)
したがって, h(y)=f(g−1(y))dydx と表すこともできる.
例1 自由度1のカイ二乗分布 (標準正規分布に従う X に対する $X^2$ の分布) の確率密度関数を求めよ.
<解説>
Y=X2 の密度関数 h(y) を求める.
y=x2 より, x=±y
X>0 のとき,
dydx=21y−21
h(y)=2π1exp(−x2/2)⋅21y−21
h(y)=212πy1exp(−y/2)
同様に, X<0 の場合も考慮すると, 求める密度関数は,
h(y)=2πy1exp(−y/2)
カイ二乗分布との一致性
χ2 分布の公式は以下のようになる.
fn(x)=22nΓ(2n)1x2n−1e−2x
そこで, n = 1
を代入すると自由度1の χ2 分布となる.
f1(x)=221Γ(21)1x−21e−2x=2πx1exp(−x/2) 2変数以上の場合
(X,Y) : 確率変数, f(x,y) : 同時密度関数は, g1,g2 を (U,V)=(g1(X,Y),g2(X,Y)) : 確率変数の分布を求める.
(U,V) の同時密度関数 h(u,v) は以下のように表される.
公式
h(u,v)=f(x,y)∣J∣
Jacobi行列
∫∫f(x,y)dxdy を考える.
2変数 x,y を u,v に変換して考える.
すると, x=ϕ1(u,v), y=ϕ2(u,v) 上で微分することができるから,
dx=∂u∂xdu+∂v∂xdv
dy=∂u∂ydu+∂v∂ydv
と表すことができる.
以上を行列で表すと, 以下のようになる. これを Jacobi行列 という.
J(∂(x,y)∂(u,v))=(∂u∂(x,y)∂u∂(x,y)∂v∂(x,y)∂v∂(x,y))=(∂u∂g1−1∂u∂g2−1∂v∂g1−1∂v∂g2−1) 線形結合の分布
X,Y : 独立な確率変数 から, Z=X+Y の分布を たたみ込み から求める.
以下のように変数変換を行う.
{W=YZ=aX+bY ヤコビアンは以下のようになる.
∂(w,z)∂(x,y)=∣∣∣∣∣0a1b∣∣∣∣∣=a1 したがって, (W,Z) の同時密度関数 h(w,z) は以下のようになる.
h(w,z)=fX(z−bw)fY(w)∣J∣=fX(z−bw)fY(w)∣a∣1 これを, w で周辺化すると, Z の分布を求めることができる.
h(z)=fX(z−bw)fY(w)∣a∣1dw データの変換
対数変換
連続型確率分布に対して, 誤差を小さくし, 正規分布に近似する
ために使用される.
また, 株価や人口など, 非負値を取るデータ
に対しても行われることがある.
WARNING
もとの, 分布が対数正規分布に従っていなければ, 対数変換を行うと歪度が増大して, さらに正規分布から離れてしまう.
ベキ乗変換
xa という変換を行い, 正規分布に近似する方法である.
a
は任意の値を取るため, 選択が重要である.
Box-Cox 変換
対数変換
と ベキ乗変換
をひとまとめにした変換である.
WARNING
Box-Cox を用いる際は, 非負値のデータのみにしか適用されない.
ロジット変換
0-1
をとるデータに対して, −∞→∞ をとる値に変換したい時に行われる.
ロジスティック変換
上記の ロジット変換
を x の回帰式 ax+b で表したい時に行う変換である.
参考