E資格学習 応用数学③ 情報理論 基礎まとめ

E資格取得に向けた学習として要点をまとめます。今回のテーマは「応用数学」ということで「線形代数」「確率・統計」「情報理論」の3分野について、要点とキーワード、pythonでの実装コードをまとめていきたいと思います。

情報理論

自己情報量

情報量とは「ある事象が起きた時にどのくらい珍しい事象か」という尺度
つまり、珍しい事象(確率が小さい)ほど、情報量が多くなる性質をもつ = 驚きの度合い

自己情報量は以下の式で表される。
自己情報量  \boldsymbol{I(x) = - \log (P(x))}
(補足)P(x):確率分布

シャノンエントロピー

平均情報量ともよばれる。自己情報量の期待値のこと。
平均情報量=E(自己情報量)
平均情報量  \boldsymbol{H(x) = - E_{x-P} \log (P(x)} P(x):確率分布

KL(カルバックライブラー)ダイバージェンス

2つの確率分布を比較する量。
正しい分布Pに従って出てきた出力をみて、それがQではなくPだと知った時に得られる情報量の期待値(不確かさの修正度合いとも言える)

 \boldsymbol{D_{KL}(P||Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}}


(例)あたりの確率が1/2だと思っていたが、実はあたりの確率が1/4であった場合

 \boldsymbol{D = 1/4 \log (1/4 / 1/2) + \log (3/4 / 1/2) = -1 + 3/4 \log3 }

交差エントロピー

・KLダイバージェンスの一部分を取り出したもの
・Qの自己情報量をPの分布で平均している

 \boldsymbol{H(P,Q)=−E_{X~P} \log Q(x)= \sum_{x}P(x)logQ(x)}