kntty.hateblo.jp

ここに何か書く。

t-SNEやUMAPで、裾の広い分布を使う理由(混雑問題)

UMAPの記事で、距離ではなく「近さ」という言葉を使った。

単純に「距離」を当てはめるのでは上手くいかない理由の1つが、混雑問題(Crowding Problem)である。

混雑問題とは、「高次元で"同じ距離"を表せる範囲が、低次元では極端に狭くなる」(という解釈で良いのだと思う)。

f:id:kntty:20201208202951j:plain

この事実の根拠として、同時に等間隔に配置できる点の数での説明がよくなされる。

  • 3次元では4個まで(正四面体の配置)
  • 2次元では3個まで(正三角形の配置)

つまり、高次元の距離を保ったまま、低次元に移すことは、本質的に無理な例が生じる、ということである。

t-SNEでは、Crowding Probremの対策として、高次元と低次元で異なる分布関数を使っている(恐らく、UMAPでも同じ恩恵に預かっている)。

f:id:kntty:20201208202800j:plain