E資格学習 深層学習 Day4 ④ その他応用モデル

MobileNet

要点まとめ
  • 画像認識モデルにおいて、軽量化+高速化を実現したモデル
  • 通常の畳み込み演算では、入力画像の大きさ(H×W)×カーネルサイズ(K×K)×チャネル数(C)×M(フィルタ数)の畳み込み計算が必要となる(H×W×C×K×K×M)が、この畳み込みを、Depthwise ConvolutionとPointwise Convolutionを組み合わせるという工夫により従来の畳み込み演算よりも高速化を実現した。
Depthwise Convolution
  • フィルタ数(カーネルのチャネル)は1chのカーネル(K×K×1)で畳み込みすることで、出力マップの計算量は、H×W×C×K×Kとなる。(空間方向の畳み込み)
Pointwise Convolution
  • カーネルサイズが1(1×1×C)フィルタ数:フィルタ数(カーネルのチャネル)=Mで畳み込みする。チャンネル方向の情報が集約される。出力マップは、H×W×Mとなる。

DenseNet

  • 画像認識のモデル。
  • Denseブロックと呼ばれる構造がある。構造としては、Batch 正規化→ReLu×畳み込み(3×3)]。
  • このブロックを通過するごとに、Denseブロックを通過する前のデータのチャンネル数分追加される。(Denseブロックの中のみで実施される)4ブロックの中でこの作業が行われている。
  • 類似構造として、スキップコネクションを導入しているResNetがあるが、ResNetは前層分のみであったが、DenseNetでは前方の各層が全て足される。growth rateはハイパーパラメータとして設定する。

正規化の技術(BatchNorm, Layer Norm, Instance Norm)

  • 正規化=平均0、分散1にデータを加工すること。
  • Batch Norm, Layer Norm, Instance Norm といった正規化の手法がある。

f:id:rakurakura:20220105170237p:plain

Batch Normalization
  • ミニバッチ内のデータについて、チャネル方向で正規化する(同一チャネルが同一分布になる)
  • バッチサイズが小さい条件では学習が収束しないことがある。その場合にはLayer Normが使用される。
  • H×W×C ×N個のミニバッチの場合、N個のC(チャンネル数)毎にまとめて正規化を実施するイメージ
Layer Normalization
  • データずつ正規化するイメージ。チャンネル方向はまとめて実施される。
  • H×W×C ×N個のミニバッチの場合、H×W×C単位で正規化し、Nデータ分個々に正規化するイメージ。
Instance Normalization
  • 個々のデータのチャンネル方向に対して、1データずつ個々に正規化する。
  • C方向の正規化をC×N個分実施するイメージ。

WaveNet

  • 時系列データを扱う音声生成モデルではあるが、RNNではなく畳み込みを適用している。
  • Dilated causal Convolutionと呼ばれる。
  • 層が深くなるにつれて、時間的なつながりのリンクを離すように畳み込み処理をすることで、より幅広い時間的なつながりを保った特徴量抽出が可能になった。