2023年8月11日金曜日

不確実性を減少させる意思決定

今回は環境を取り巻くランダムネスの影響を小さくする意思決定の方法について考えていきます。
ノイズの標準偏差が説明変数を全て含む多変数の一次関数になる場合の不等分散重回帰モデルにおいて、不確実性を減少させるための説明変数の状態について、予算配分問題を例に考えていきます。

予算配分問題

多角的に事業を展開している企業において、事業の成長見込みを基に来年度予算割り当て額を決める問題を考えます。
$y$={事業1の利益, 事業2の利益, ...}、$x$={事業1の割り当て予算, 事業2の割り当て予算,...}、$ \alpha$={事業1の投下資本利益率(ROIC)の予測値,事業2のROICの予測値,...}
とした時、実際のROICは予測値にノイズが加わるため
$$ y_i=x_i( \alpha_i + \varepsilon_i)=\alpha_i x_i + x_i \varepsilon_i, \quad \varepsilon_i \sim N(0, \sigma_i^2), \quad \alpha_i \geq 0 $$
という関係式を考えることが出来ます。
この時の$x_i$を与えた上での$y_i$の条件付き分布は、$y_i|x_i \sim N(\alpha_i x_i, (x_i \sigma_i)^2)$になります。

事業数を$D$として、会社全体の利益は$t=\sum_i^D y_i$となります。 

この節では簡単のため、$D=4$とし、各事業の利益は他事業に依存せず独立に決まるとします(独立性の仮定)。 

$x$を与えた上での$t$の条件付き分散は確率変数の和の公式によって、$V[t|x]=\sum_{i=1}^4 (x_i \sigma_i)^2$となります。
$V[t|x]$が小さくなることはランダムネスの影響を小さくし、予定通りの結果を出しやすくなる確率が上昇し、計画性の向上や信頼性の保持に繋がりますので、これを最小化する$x$を求めます。
$\sum_{i=1}^4 x_i=a$の条件のもとで$V[t|x]$を最小化する$x$はラグランジュ未定乗数法によって
$$ x_i=\frac{\Pi_{j\neq i}^4 \sigma_j^2}{\sum_{j=1}^2\sum_{k=j+1}^3\sum_{l=k+1}^4 (\sigma_j\sigma_k\sigma_l)^2}a $$ となります。 上式は分子の$\sigma_i^2$以外の分散の積が、分母の${}_4 C_{4-1}=4$の組み合わせ全体の中での比率を求める計算に$a$を掛けたものになっているため、$\sigma_1=...=\sigma_4$の時、ランダムネスの影響が最小化される最適点は$x_1=...=x_4=a/4$となります。

従ってこのような単純化された状況ではバランスが取れた予算配分には計画性を向上させるメリットがあることが分かりました。
一方、予算配分をバランスよくさせることは、最もROICが高い事業に全予算を割り当てる場合と比べて利益の期待値である$E[t|x]$が下がるデメリットがあるため、$E[t|x]$と$V[t|x]$の兼ね合いを考える必要があります。
また、事業間シナジーを考慮し、独立性の仮定も外す必要があります。次節でこれらを考慮した最適化問題を考えていきます。

評価指標の導出

事業$i$の予算額$x_i$に応じてもたらされる、観測されない利益$y_i$の$x_i$を与えた上での条件付き分布に正規性の仮定をおきます。 $$y_i|x_i \sim N\left(\alpha_i x_i, (x_i\sigma_i)^2\right), \quad \alpha_i \geq 0 $$ 会社全体の利益は $$ t = \sum_{i=1}^D y_i$$ とします。先ほどとは違い独立性の仮定を置きません。

$t$の条件付き分布は、正規分布の再生性によって、次式になることが分かります。

$$t|x \sim N\left( \sum_{i=1}^D \alpha_i x_i, \sum_{i=1}^D V(y_i|x_i) + 2\sum_{i=1}^D\sum_{j=i+1}^D \Lambda_{ij} \right)\quad (1)$$

ここで$\Lambda$は分散共分散行列で $$ \Lambda_{ij}= \rho_{ij. x}S(y_i|x_i)S(y_j|x_j), \quad 1 \geq \rho_{ij. x} \geq -1 $$と定義されます。$ \rho_{ij . x}$は$x_i$と$x_j$の影響を取り除いた$y_i$と$y_j$の偏相関で、$\varepsilon_i$と$\varepsilon_j$の相関係数とみなすことが出来ます。予算額の類似性による影響を除いても利益に相関関係がみられる場合にそれを代入するものになります。$S(y_i|x_i)$は条件付き標準偏差で、$S(y_i|x_i)=x_i\sigma_i$です。

目的はこの正規分布の期待値の高さと、計画通りの結果を出しやすくする度合いを表す標準偏差の小ささ、この二つの情報が含まれていて最適化の目的関数になり得る指標を導出する事ですが、$t$が期待値$\mu:=\sum_{i=1}^D \alpha_i x_i$以下の値を取ったときの条件付き期待値、すなわち、失敗したときの期待値がそれに該当します。

これから行う条件付き期待値の導出は、「正規分布全体の期待値の導出」と共通する部分が多いため、そちらを見て分かるところは省略します。

\begin{align} E[t| t \leq \mu] &= \frac{E[t, t \leq \mu]}{P(t \leq \mu)} \\ &= 2 \int_{-\infty}^\mu t N(t| \mu, \sigma^2) dt \\ &= \frac{2}{ \sqrt{2 \pi \sigma^2 } } \int_{-\infty}^\mu (t-\mu) e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt + 2\mu \int_{-\infty}^\mu \frac{1}{ \sqrt{2 \pi \sigma^2 } } e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt \\ &= \frac{2}{ \sqrt{2 \pi \sigma^2 } } \int_{-\infty}^\mu (t-\mu) e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt + \mu \end{align} 第1項目について、$z=\frac{t-\mu}{\sigma}$とおくと、$t=\sigma z+\mu$となり、単調関数で表すことが出来るため、定積分の置換積分法を適用すると、 \begin{align} \frac{2}{ \sqrt{2 \pi \sigma^2 } } \int_{-\infty}^\mu (t-\mu) e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt &= \frac{2}{ \sqrt{2 \pi \sigma^2 } } \int_{-\infty}^\frac{\mu-\mu}{\sigma} \sigma z e^{-\frac{z^2}{2}} \sigma dz \\ &= \frac{2 \sigma}{ \sqrt{2 \pi } } \int_{-\infty}^0 z e^{-\frac{z^2}{2}} dz \\ &= -\frac{2 \sigma}{ \sqrt{2 \pi } } \end{align} 最後の等式はガウス積分の公式を使うことで分かります。最後に第1項と第2項を合わせた上で、式(1)の結果を代入すると指標の完成です。 $$  f(x) = \sum_{i=1}^D \alpha_i x_i -\frac{2}{\sqrt{2 \pi }} \sqrt{\sum_{i=1}^D (\sigma_i x_i)^2 + 2\sum_{i=1}^D\sum_{j=i+1}^D \Lambda_{ij}}\quad (2) $$

$\sum_i^D x_i \leq a $の条件の下で$f(x)$が増加するよう予算配分を調整することを考えることが出来ます。しかし、期待値以下の実績を失敗と定義するのはかなり保守的ですので、必要に応じて第2項の重み係数$2/\sqrt{2\pi}$を下げることになると思います。

2023年8月8日火曜日

結合エントロピーと汎化能力

今回は次回の記事で重要になる結合エントロピーについて考えます。

結合エントロピーの展開

結合エントロピーは次式によって求めることが出来ます。

$$ H(x_1,x_2,...,x_D) = \sum_{i=1}^D H(x_i) - \sum_{i=1}^D \sum_{j=i+1}^D I(x_i, x_{j}|x_{j+1},x_{j+2},...,x_D)\quad (1) $$ ここで$I(A,B|C)=H(A|C)+H(B|C)-H(A,B|C)$は条件付き相互情報量です。
証明には次の公式を使います。
・公式1 $H(A,B)=H(A|B)+H(B)\Leftrightarrow H(A|B)=H(A,B)-H(B)$
・公式2 $H(A,B)=H(A)+H(B) - I(A,B)$
チェーンルール $$ H(x_1,x_2,...,x_D)=H(x_1) + \sum_{i=2}^D H(x_i|x_1,...,x_{i-1}) $$ チェーンルールは次のように書き換えることが出来ます。
・公式3 $$ H(x_D,x_{D-1},...,x_1)=H(x_D) + \sum_{i=1}^{D-1} H(x_{D-i}|x_{D-i+1},...,x_D) $$ 先に次の等式を証明します。 $$ H(x_i|x_{i+1},..,x_D) = H(x_i) - \sum_{j=1}^D I(x_i, x_{i+j}|x_{i+j+1},x_{i+j+2},...,x_D)\quad (2) $$ 証明 $$ \begin{align} f_i(j) := H(x_i|x_{i+j},..,x_D) &= H(x_i,x_{i+j},..,x_D) - H(x_{i+j},..,x_D) \\ &= H(x_i,x_{i+j},...,x_{D-1}|x_D) + H(x_D) - H(x_{i+j},..,x_D) \\ &= H(x_i,x_{i+j},...,x_{D-2}|x_{D-1},x_D) + H(x_{D-1}|x_D) + H(x_D) - H(x_{i+j},..,x_D) \end{align} $$ 第1項に立て続けに公式1を適用すると $$ \begin{align} & H(x_i,x_{i+j},...,x_{D-2}|x_{D-1},x_D) + H(x_{D-1}|x_D) + H(x_D) - H(x_{i+j},..,x_D) & \\ & = H(x_i,x_{i+j}|x_{i+j+1},..,x_D) + H(x_D) + \sum_{k=i+j+1}^{D-1} H(x_{D-k}|x_{D-k+1},...,x_D) - H(x_{i+j},..,x_D) & \\ \end{align} $$ 公式3を適用し $$ \begin{align} & = H(x_i,x_{i+j}|x_{i+j+1},..,x_D) + H(x_{i+j+1},...,x_D) - H(x_{i+j},..,x_D)\quad (3) & \end{align} $$ 第1項について、公式2より $$ H(x_i,x_{i+j}|x_{i+j+1},..,x_D) = H(x_i|x_{i+j+1},..,x_D) + H(x_{i+j}|x_{i+j+1},..,x_D) - I(x_i, x_{i+j}|x_{i+j+1},..,x_D) $$ 上式の第2項について、 $$ H(x_{i+j}|x_{i+j+1},..,x_D) = H(x_{i+j},..,x_D) - H(x_{i+j+1},..,x_D) $$ 従って式(3)は、 $$ \begin{align} & H(x_i,x_{i+j}|x_{i+j+1},..,x_D) + H(x_{i+j+1},...,x_D) - H(x_{i+j},..,x_D) & \\ & = H(x_i|x_{i+j+1},..,x_D) + H(x_{i+j},..,x_D) - H(x_{i+j+1},..,x_D) - I(x_i, x_{i+j}|x_{i+j+1},..,x_D) + H(x_{i+j+1},...,x_D) - H(x_{i+j},..,x_D) & \\ & = H(x_i|x_{i+j+1},..,x_D) - I(x_i, x_{i+j}|x_{i+j+1},..,x_D) \end{align} $$ すなわち $$ f_i(j) = f_i(j+1) - I(x_i, x_{i+j}|x_{i+j+1},..,x_D) $$ となり、条件となる変数を一つづつ減らしながら再帰的に展開していくことが出来、$j=D$については、 $$ \begin{align} f_i(D) &= H(x_i|x_D) = H(x_i,x_D)-H(x_D)\\ &= H(x_i)+ H(x_D)-I(x_i,x_D)-H(x_D) \\ &= H(x_i)-I(x_i,x_D) \end{align} $$ となるため式(2)は成り立ちます。 

 式(1)についても公式3と式(2)を適用することで証明することが出来ます。

$x_i$に正規性の仮定をおくと、$H(A)$は分散に帰着され[1]、$I(A,B|C)$は偏相関に帰着されます[2]。偏相関の計算は回帰分析の残差を使う方法が提案されています[3]。

多変量正規分布のエントロピーの計算には式(1)を使う方法以外にも分散共分散行列の行列式を使って求める方法[4]があります。

結合エントロピーと分散の和の関係

独立な多変量正規分布$P(X_1, X_2,...,X_D)=\Pi_i^D N(\mu_i, \sigma_i^2)$に従う確率変数の結合エントロピーは分散の合計値だけで決まるわけではなく、それぞれの分散のバランス状態によっても変わります。

多変数の独立性から

$$ H(X_1,X_2,...,X_D)=\sum_i^D H(X_i)=\frac{D}{2}\{1+log(2\pi)\}+\frac{1}{2}log(\Pi_i^D \sigma_i^2)$$

ここで$\sum_i^D \sigma_i^2=a$の制約の下で$H(X_1,...,X_D)$が最大化する$\sigma^2$を考えたとき、最適化に影響しない定数及び単調関数を除くと目的関数は$\Pi_i^D \sigma_i^2$となり、相加相乗平均の不等式と累乗根の単調性から、$\sigma_1^2=\sigma_2^2=...=\sigma_D^2$となるときのみ結合エントロピーが最大化することが分ります。

説明変数の結合エントロピー

回帰分析において、平均が0になるよう中心化した説明変数の結合エントロピーはその説明変数の分散共分散行列との関連性が認められるため、そのエントロピーの増大が意味するところは、多重共線性の問題が発生しにくい望ましい状態になる確率が高まることと言えます。

ここで次の線形重回帰モデルを考えます。 $$ y_i = w_1x_{i1} + w_2x_{i2} + \varepsilon_i,\quad \varepsilon_i \sim N(0, \sigma^2),\quad i=1,2,...,n$$ $x$と$y$は中心化されているとします。$w$の最尤推定量は $$ w=(x^Tx)^{-1}x^Ty $$ となります。$x$が中心化されているため、$(x^Tx)$は分散共分散行列を$n$倍したものになります。$(x^Tx)_{ij}=n a_{ij}$とし、上式に基づいて$w_1$を求める式を計算すると、次式になります。 $$ \begin{align} w_1 &= \sum_{i=1}^n y_i \frac{n(x_{i1}a_{22} - x_{i2}a_{12})}{n^2(a_{11}a_{22} - a_{12}a_{21})} \\ &= \frac{1}{n}\sum_{i=1}^n y_i \frac{x_{i1}a_{22} - x_{i2}a_{12}}{a_{11}a_{22} - a_{12}^2} \quad (4) \end{align} $$ $a_{12}$が大きくなれば$(x^T)_1$と$y$との関連性の高さに関係なく$w_1$が大きくなってしまい本来の意味を持ちません。一方$a_{12}=0$とした場合、上式は$x, y$が中心化されていることに留意して $$ \frac{1}{n}\sum_{i=1}^n y_i \frac{x_{i1}a_{22} - x_{i2}a_{12}}{a_{11}a_{22} - a_{12}^2} = \frac{1}{n}\sum_{i=1}^n \frac{y_i x_{i1}}{a_{11}} = \rho_{y,1}\sigma_y   $$ となり、本来の意味を持ちます。$\rho_{y,j}$は$y$と$(x^T)_j$との相関係数で、$\sigma_y$は$y$の標準偏差です。

また、$a_{22}$を大きくしても相対的に$a_{12}$が回帰分析に与える影響を小さくすることが出来、本来の意味を持ちます。加えて、式(4)を分散$a_{jj}$の関数として見たとき、分母は2次式、分子は1次式となるため、分散の合計が回帰係数に影響を与えます。さらに言うと$a_{11}+a_{22}=b$の制約下で分母の$a_{11}a_{22}$が最大の値を取るのは前節で解説した通り、結合エントロピーと同じく、$a_{11}=a_{22}$となる時であることが分かります。以上をまとめると、説明変数同士の相関の小ささ、分散の合計、分散のバランス性の3つが回帰係数に影響を与えるため、式(1)及び前節での結論を踏まえると説明変数の結合エントロピーが増加すると、解がスパースになる傾向がうかがえます。このことから、汎化能力の観点から、説明変数のエントロピーの重要性を認識することが出来ます。

参考文献

  1. 正規分布のエントロピーを丁寧に計算する
  2. 正規分布に従う連続確率変数の相互情報量の推定は相関係数の推定に帰着される
  3. Partial correlation - Wikipedia
  4. Entropy of the multivariate Gaussian