# 4章 変数変換

# 変数変換のメリット

X: 確率変数 , f(x): 密度関数を使って, 変換後の g(X): 確率変数の分布や平均, 期待値を求めたい.

つまり, 確率変数 g(X) が複雑な場合に有効.

# 1変数の変数変換

Y = g(X) の密度関数 h(y) を求める.

公式

h(y)=f(x)dxdyh(y) = f(x) \frac{dx}{dy}

y=g(x)y = g(x) で表されることから, x=g1(y)x = g^{-1}(y)

したがって, h(y)=f(g1(y))dxdyh(y) = f(g^{-1}(y))\frac{dx}{dy} と表すこともできる.

例1 自由度1のカイ二乗分布 (標準正規分布に従う X に対する $X^2$ の分布) の確率密度関数を求めよ.

<解説>

Y=X2Y = X^2 の密度関数 h(y)h(y) を求める.

y=x2y = x^2 より, x=±yx = \pm \sqrt{y}

X>0X > 0 のとき,

dxdy=12y12\frac{dx}{dy} = \frac{1}{2} y^{-\frac{1}{2}}

h(y)=12πexp(x2/2)12y12h(y) = \frac{1}{\sqrt{2\pi}}exp(-x^2/2) \cdot \frac{1}{2} y^{-\frac{1}{2}}

h(y)=1212πyexp(y/2)h(y) = \frac{1}{2} \frac{1}{\sqrt{2\pi y}}exp(-y/2)

同様に, X<0X < 0 の場合も考慮すると, 求める密度関数は,

h(y)=12πyexp(y/2)h(y) = \frac{1}{\sqrt{2\pi y}}exp(-y/2)

カイ二乗分布との一致性

χ2\chi^2 分布の公式は以下のようになる.

fn(x)=12n2Γ(n2)xn21ex2f_n(x) = \frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}

そこで, n = 1 を代入すると自由度1の χ2\chi^2 分布となる.

f1(x)=1212Γ(12)x12ex2=12πxexp(x/2) f_1(x) = \frac{1}{2^{\frac{1}{2}}\Gamma(\frac{1}{2})}x^{-\frac{1}{2}}e^{-\frac{x}{2}} = \frac{1}{\sqrt{2\pi x}}exp(-x/2)

# 2変数以上の場合

(X,Y)(X, Y) : 確率変数, f(x,y)f(x, y) : 同時密度関数は, g1,g2g_1, g_2(U,V)=(g1(X,Y),g2(X,Y))(U, V) = (g_1(X, Y), g_2(X, Y)) : 確率変数の分布を求める.

(U,V)(U, V) の同時密度関数 h(u,v)h(u, v) は以下のように表される.

公式

h(u,v)=f(x,y)Jh(u, v) = f(x, y)\mid J\mid

# Jacobi行列

f(x,y)dxdy\int\int f(x, y)dxdy を考える.

2変数 x,yx, yu,vu, v に変換して考える.

すると, x=ϕ1(u,v)x = \phi_1(u, v), y=ϕ2(u,v)y = \phi_2(u, v) 上で微分することができるから,

dx=xudu+xvdvdx = \frac{\partial x}{\partial u} du + \frac{\partial x}{\partial v} dv

dy=yudu+yvdvdy = \frac{\partial y}{\partial u} du + \frac{\partial y}{\partial v} dv

と表すことができる.

以上を行列で表すと, 以下のようになる. これを Jacobi行列 という.

J((x,y)(u,v))=((x,y)u(x,y)v(x,y)u(x,y)v)=(g11ug11vg21ug21v) J \left( \begin{array}{c} \partial(x, y)\\ \partial(u, v) \end{array} \right) = \left( \begin{array}{cc} \frac{\partial (x, y)}{\partial u} &\frac{\partial (x, y)}{\partial v}\\ \frac{\partial (x, y)}{\partial u} &\frac{\partial (x, y)}{\partial v} \end{array} \right) = \left( \begin{array}{cc} \frac{\partial g_1^{-1}}{\partial u} &\frac{\partial g_1^{-1}}{\partial v}\\ \frac{\partial g_2^{-1}}{\partial u} &\frac{\partial g_2^{-1}}{\partial v} \end{array} \right)

# 線形結合の分布

X,YX, Y : 独立な確率変数 から, Z=X+YZ = X + Y の分布を たたみ込み から求める.

以下のように変数変換を行う.

{W=YZ=aX+bY \begin{cases} W = Y\\ Z = aX + bY \end{cases}

ヤコビアンは以下のようになる.

(x,y)(w,z)=01ab=1a \frac{\partial(x, y)}{\partial(w, z)} = \left| \begin{array}{cc} 0 &1\\ a &b \end{array} \right| =\frac{1}{a}\\

したがって, (W,Z)(W, Z) の同時密度関数 h(w,z)h(w, z) は以下のようになる.

h(w,z)=fX(zbw)fY(w)J=fX(zbw)fY(w)1a h(w, z) = f_X(z - bw)f_Y(w)\mid J \mid = f_X(z - bw)f_Y(w) \frac{1}{|a|}

これを, ww で周辺化すると, ZZ の分布を求めることができる.

h(z)=fX(zbw)fY(w)1adw h(z) = f_X(z - bw)f_Y(w) \frac{1}{|a|} dw

# データの変換

# 対数変換

連続型確率分布に対して, 誤差を小さくし, 正規分布に近似する ために使用される. また, 株価や人口など, 非負値を取るデータ に対しても行われることがある.

WARNING

もとの, 分布が対数正規分布に従っていなければ, 対数変換を行うと歪度が増大して, さらに正規分布から離れてしまう.

# ベキ乗変換

xax^a という変換を行い, 正規分布に近似する方法である.

a は任意の値を取るため, 選択が重要である.

# Box-Cox 変換

対数変換ベキ乗変換 をひとまとめにした変換である.

WARNING

Box-Cox を用いる際は, 非負値のデータのみにしか適用されない.

# ロジット変換

0-1 をとるデータに対して, -\infty \to \infty をとる値に変換したい時に行われる.

# ロジスティック変換

上記の ロジット変換xx の回帰式 ax+bax + b で表したい時に行う変換である.

# 参考