t-SNEやUMAPで、裾の広い分布を使う理由(混雑問題)
UMAPの記事で、距離ではなく「近さ」という言葉を使った。
単純に「距離」を当てはめるのでは上手くいかない理由の1つが、混雑問題(Crowding Problem)である。
混雑問題とは、「高次元で"同じ距離"を表せる範囲が、低次元では極端に狭くなる」(という解釈で良いのだと思う)。
この事実の根拠として、同時に等間隔に配置できる点の数での説明がよくなされる。
- 3次元では4個まで(正四面体の配置)
- 2次元では3個まで(正三角形の配置)
つまり、高次元の距離を保ったまま、低次元に移すことは、本質的に無理な例が生じる、ということである。
t-SNEでは、Crowding Probremの対策として、高次元と低次元で異なる分布関数を使っている(恐らく、UMAPでも同じ恩恵に預かっている)。
- 参考
- Visualizing data using tSNE 論文紹介スライド https://www.slideshare.net/mobile/t_koshikawa/visualizing-data-using-tsne-56773191