2021-01-01から1年間の記事一覧
100や1000などのキリの良い数を、「それプラスちょっと」の数で割る、という手計算を迫られる場面が、 少なからず(少なからず?)ある。 ぱっと浮かぶ例としては、税込金額における税別金額の比率を求める、とか。 100 / 108 = ? (※食品テイクアウトは、い…
TensorFlow(2系)の、 tf.keras.applicationsの学習済みモデルに、L2等の正規化を加える方法。 次の記事[1]で解決した。簡単にその要約を記す。 [1] Silva TS. How to Add Regularization to Keras Pre-trained Models the Right Way. 2019. sthalles.github.…
自然言語処理でお馴染み、他の分野も席巻しつつあるTransformerについて、 やっと自分の理解が追いついてきた。 Transformerとは何か、については、良い記事がたくさんあるのでそちらを参照されたい。 念のため、最小限の説明をすると、次のような感じ。 入…
Transformerに使われるAttentionと、FFN(Position-wise Dense)、全結合(Dense)、畳み込み(Convolution)の 関係を俯瞰するために、お絵描きを試みたので、ここに載せる。 もしかしたら不正確な表現があるかもしれないが、ご容赦いただきたい。 なお、図…
2021.7.16 書き直しました。新しい記事の方を参照ください。
指数移動平均(Exponential Moving Average; EMA)を得るためのテクニックの話。 以前、確か、Temporal Ensembling [1]の論文を読んだときに、なるほどー、と思ったときのメモ書きが出てきたので、文字に起こしておく。 [1] Laine S, Aila T. Temporal Ensembl…
それぞれどちらを使うべきか、時々混乱するので、整理する。 分散と不偏分散の定義 以下、手元に$n$個のサンプル $x _ i$ があって、その平均が $ m $ であるとする。 (通常の)分散: $ σ ^ 2 _ P = \frac {1}{n} \sum _ i {(x _ i - m)} $ 不偏分散: $ σ ^…