kntty.hateblo.jp

ここに何か書く。

次元削減

t-SNEやUMAPで、裾の広い分布を使う理由(混雑問題)

UMAPの記事で、距離ではなく「近さ」という言葉を使った。 単純に「距離」を当てはめるのでは上手くいかない理由の1つが、混雑問題(Crowding Problem)である。 混雑問題とは、「高次元で"同じ距離"を表せる範囲が、低次元では極端に狭くなる」(という解釈…

UMAPの仕組み ── 低次元化の理屈を理解してみる

1. はじめに 非線形の高次元データを低次元化して可視化する道具として、t-SNEに代わってUMAPが主流になってきている。 McInnes L, Healy J, Melville J. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. 2018. UMAPの仕組み…