Transformerに使われるAttentionと、FFN(Position-wise Dense)、全結合(Dense)、畳み込み(Convolution)の 関係を俯瞰するために、お絵描きを試みたので、ここに載せる。 もしかしたら不正確な表現があるかもしれないが、ご容赦いただきたい。 なお、図…
2021.7.16 書き直しました。新しい記事の方を参照ください。
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。