E資格学習:応用数学② 確率・統計 基礎まとめ

E資格取得に向けた学習として要点をまとめます。今回のテーマは「応用数学」ということで「線形代数」「確率・統計」「情報理論」の3分野について、要点とキーワード、pythonでの実装コードをまとめていきたいと思います。

確率・統計

ベイズの定理(ベイズ則)

(例)受け取ったメールに含まれている特定の文字から、それがスパムメールである確率がどのくらいか。
 ・メールに特定の文字が含まれている確率 ・・・P(A) (→周辺尤度)
 ・全メールにおけるスパムメールの確率・・・P(B) (→事前確率)
 ・スパムメールに、特定の文字が含まれている確率・・・P(A|B) (→尤度)とすると

 ベイズの定理より、以下となる。
   \boldsymbol{P(B|A) = P(B)P(A|B)/P(A)}

条件付き確率

(例)雨が降っている条件下で、交通事故に遭う確率
 ・雨が降る確率・・・P(A)
 ・交通事故に遭う確率・・・P(B) とすると
 
 条件付き確率では、以下となる。
   \boldsymbol{P(B|A) = P(A \cap B )/P(A)}

期待値・分散・共分散・標準偏差

・期待値
 ある確率分布に従う事象に対し、試行によって確率的に得られるであろう期待される値のこと

   \boldsymbol{E(X) = \sum _{i=1} ^{N} {X_iP(X_i)}}

・分散
 データの散らばり度合いを示している。標準偏差は分散の平方根となる

  標本分散(サンプルのばらつきを表現する場合)
    \boldsymbol{s^2 = 1/n \sum _{i=1} ^{n} {(x_i-\bar{x})^2}}

  母分散(母集団のばらつきを表現する場合)
    \boldsymbol{Var(X) = \sum _{i=1} ^{N} {(X_i-E(X))^2 P(X_i)}}

  また、分散は期待値のみで表現することも可能である
    \boldsymbol{Var(X) = E(X^2) - E(X)^2}


・共分散
 2つのデータの分布の類似度、互いの影響度がわかる指標。

    \boldsymbol{Cov(X, Y ) = E(XY) - E(X)E(Y)}

様々な確率変数

・質的変数
・名義尺度:性別、色など(数値に意味はなくカテゴライズするために数値をあてがって分類しているもの)
・順序尺度:成績の5段階評価、満足度調査など(名義尺度+数値に大小の意味を持たせている)

・量的変数
・間隔尺度:摂氏での気温偏差値(0に絶対的な意味がなく、相対的な意味しかないもの)
・比例尺度:身長、年齢、値段(0に絶対的な意味をもつもの)

様々な確率分布

・ベルヌーイ分布
1回の試行で成功・失敗を考えた時に、成功確率が従う分布
(例)コイン投げ、手術の成功、試合の勝敗、奇数か偶数か etc...

 ベルヌーイ分布に従うことを、  \boldsymbol{X〜B(1, p)}と表現する。
   \boldsymbol{P(X=1)=p}のとき、
   ベルヌーイの確率関数  \boldsymbol{P(x|p) = p^x(1-p)^{1-x}}
   ベルヌーイの期待値  \boldsymbol{E(X) = p}
   ベルヌーイの分散  \boldsymbol{Var(X) = p(1-p)}と表すことができる


・二項分布
ベルヌーイ分布をn回試行した時、その成功回数が従う分布
(例)試合の勝利合計回数、シュートの成功回数、講義の出席回数、手術の累計成功回数、etc...

 二項分布に従うことを、  \boldsymbol{X〜B(n, p)}と表現する。
   二項分布の確率関数  \boldsymbol{P(x|p, n) = (n x)p^x(1-p)^{n-x}}
   二項分布の期待値  \boldsymbol{E(X) = np}
   二項分布の分散  \boldsymbol{Var(X) = np(1-p)}と表すことができる


ガウス分布
 正規分布ともいう。様々な自然現象が従うことの多い分布。平均μ、分散σの値が決まれば正規分布が決定する。
 平均0、分散1の正規分布を標準正規分布という
 (例)身長、体重の分布、テストの点数の分布、ウィルスの感染確率など

 ガウス分布に従うことを、  \boldsymbol{X〜N(μ, σ^2)}と表現する。
   ガウス分布の確率関数  f(x)=\dfrac{1}{\sqrt{2\pi\sigma}}\exp(-\dfrac{(x-\mu)^ 2}{2\sigma^ 2})


・マルチヌーイ分布
カテゴリカル分布ともいう。1回の試行で複数の結果が確率的に発生するとき
(例)サイコロを投げた時、日本人の好きな髪型、複数のあたりがある宝くじを1回引いた時の結果 etc...