E資格学習　応用数学③ 情報理論　基礎まとめ - 駆け出しからのAI・データサイエンス学習日記

E資格取得に向けた学習として要点をまとめます。今回のテーマは「応用数学」ということで「線形代数」「確率・統計」「情報理論」の3分野について、要点とキーワード、pythonでの実装コードをまとめていきたいと思います。

情報量とは「ある事象が起きた時にどのくらい珍しい事象か」という尺度
つまり、珍しい事象（確率が小さい）ほど、情報量が多くなる性質をもつ = 驚きの度合い

自己情報量は以下の式で表される。
自己情報量 $\boldsymbol{I(x) = - \log (P(x))}$
（補足）P(x):確率分布

平均情報量ともよばれる。自己情報量の期待値のこと。
平均情報量＝E（自己情報量）
平均情報量 $\boldsymbol{H(x) = - E_{x-P} \log (P(x)}$ P(x):確率分布

２つの確率分布を比較する量。
正しい分布Pに従って出てきた出力をみて、それがQではなくPだと知った時に得られる情報量の期待値（不確かさの修正度合いとも言える）

$\boldsymbol{D_{KL}(P||Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}}$

（例）あたりの確率が1/2だと思っていたが、実はあたりの確率が1/4であった場合

$\boldsymbol{D = 1/4 \log (1/4 / 1/2) + \log (3/4 / 1/2) = -1 + 3/4 \log3 }$

・KLダイバージェンスの一部分を取り出したもの
・Qの自己情報量をPの分布で平均している

$\boldsymbol{H(P,Q)=−E_{X～P} \log Q(x)= \sum_{x}P(x)logQ(x)}$