111
slideColor, Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and Manifold Learning – p. 1

Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

slideColor,

Geometric Methods and ManifoldLearning

Mikhail Belkin , Ohio State University,

prepared jointly with Partha Niyogi

Geometric Methods and Manifold Learning – p. 1

Page 2: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

High Dimensional Data

When can we avoid the curse of dimensionality?

Smoothnessrate ≈ (1/n)

sd

splines,kernel methods, L2 regularization...

Sparsitywavelets, L1 regularization, LASSO, compressed sensing..

Geometrygraphs, simplicial complexes, laplacians, diffusions

Geometric Methods and Manifold Learning – p. 2

Page 3: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Geometry and Data: The Central Dogma

Distribution of natural data is non-uniform andconcentrates around low-dimensional structures.

The shape (geometry) of the distribution can beexploited for efficient learning.

Geometric Methods and Manifold Learning – p. 3

Page 4: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Manifold Learning

Learning when data ∼ M ⊂ RN

Clustering: M → {1, . . . , k}connected components, min cut

Classification: M → {−1,+1}P on M×{−1, +1}

Dimensionality Reduction: f : M → Rn n << N

M unknown: what can you learn about M from data?e.g. dimensionality, connected componentsholes, handles, homologycurvature, geodesics

Geometric Methods and Manifold Learning – p. 4

Page 5: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Formal Justification

Speechspeech ∈ l2 generated by vocal tract

Jansen and Niyogi (2005)

Visiongroup actions on object leading to different images

Donoho and Grimes (2004)

Roboticsconfiguration spaces in joint movements

Graphics

Manifold + Noise may be generic model in high dimensions.

Geometric Methods and Manifold Learning – p. 5

Page 6: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Take Home Message

Geometrically motivated approach to learningnonlinear, nonparametric, high dimensions

Emphasize the role of the Laplacian and Heat KernelSemi-supervised regression and classification

Clustering and Homology

Randomized Algorithms and Numerical Analysis

Geometric Methods and Manifold Learning – p. 6

Page 7: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Principal Components Analysis

Given x1, . . . ,xn ∈ RD

Find y1, . . . , yn ∈ R such that

yi = w · xi

and

maxw

Variance({yi}) =∑

i

y2i = wT

(∑

i

xixTi

)

w

w∗ = leading eigenvector of∑

i

xixTi

Geometric Methods and Manifold Learning – p. 7

Page 8: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Manifold Model

Suppose data does not lie on a linear subspace.

Yet data has inherently one degree of freedom.

Geometric Methods and Manifold Learning – p. 8

Page 9: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

An Acoustic Example

u(t) s(t)

l

Geometric Methods and Manifold Learning – p. 9

Page 10: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

An Acoustic Example

u(t) s(t)

l

One Dimensional Air Flow

(i) ∂V∂x

= − Aρc2

∂P∂t

(ii) ∂P∂x

= − ρA

∂V∂t

V (x, t) = volume velocityP (x, t) = pressure

Geometric Methods and Manifold Learning – p. 9

Page 11: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Solutions

0.650.7

0.750.8

0.850.9

0.951

0.65

0.7

0.75

0.8

0.85

0.9

0.95

10.65

0.7

0.75

0.8

0.85

0.9

0.95

1

beta−1beta−3

beta

−7

u(t) =∑∞

n=1αn sin(nω0t) ∈ l2

s(t) =∑∞

n=1βn sin(nω0t) ∈ l2

Geometric Methods and Manifold Learning – p. 10

Page 12: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Acoustic Phonetics

A

ll 2

1

A 21

Vocal Tract modeled as a sequence of tubes.(e.g. Stevens, 1998)

Geometric Methods and Manifold Learning – p. 11

Page 13: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Vision Example

f : R2 → [0, 1]

F = {f |f(x, y) = v(x− t, y − r)}

Geometric Methods and Manifold Learning – p. 12

Page 14: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Robotics

g : S2 × S2 × S2 → R3

〈(θ1, φ1), (θ2, φ2), (θ3, φ3)〉 → (x, y, z)

Geometric Methods and Manifold Learning – p. 13

Page 15: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Manifold Learning

Learning when data ∼ M ⊂ RN

Clustering: M → {1, . . . , k}connected components, min cut

Classification/Regression: M → {−1,+1} or M → R

P on M×{−1, +1} or P on M× R

Dimensionality Reduction: f : M → Rn n << N

M unknown: what can you learn about M from data?e.g. dimensionality, connected componentsholes, handles, homologycurvature, geodesics

Geometric Methods and Manifold Learning – p. 14

Page 16: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Differential Geometry

All you wanted to know aboutdifferential geometry but wereafraid to ask, in 10 easy slides!

Geometric Methods and Manifold Learning – p. 15

Page 17: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Embedded manifolds

Mk ⊂ RN

Locally (not globally) looks like Euclidean space.

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

S2 ⊂ R3

Geometric Methods and Manifold Learning – p. 15

Page 18: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Tangent space

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

TpMk ⊂ RN

k-dimensional affine subspace of RN .

Geometric Methods and Manifold Learning – p. 16

Page 19: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Tangent vectors and curves

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

Geometric Methods and Manifold Learning – p. 17

Page 20: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Tangent vectors and curves

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

v

φ(t)

φ(t) : R → Mk

dφ(t)

d t

∣∣∣∣0

= V

Tangent vectors <———> curves.

Geometric Methods and Manifold Learning – p. 17

Page 21: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Tangent vectors as derivatives

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

v

φ(t)

f : Mk → R

Geometric Methods and Manifold Learning – p. 18

Page 22: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Tangent vectors as derivatives

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

v

φ(t)

f : Mk → R

φ(t) : R → Mk

f(φ(t)) : R → R

df

dv=d f(φ(t))

d t

∣∣∣∣0

Tangent vectors <———> Directional derivatives.

Geometric Methods and Manifold Learning – p. 18

Page 23: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Riemannian geometryNorms and angles in tangent space.

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

w

v

〈v, w〉 ‖v‖, ‖w‖

Geometric Methods and Manifold Learning – p. 19

Page 24: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Length of curves and geodesics

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

φ(t) : [0, 1] → Mk

l(φ) =

∫ 1

0

∥∥∥∥

dt

∥∥∥∥dt

Can measure length using norm in tangent space.

Geodesic — shortest curve between two points.

Geometric Methods and Manifold Learning – p. 20

Page 25: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Gradient

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

v

φ(t)

f : Mk → R

〈∇f, v〉 ≡ df

dv

Tangent vectors <———> Directional derivatives.

Gradient points in the direction of maximum change.

Geometric Methods and Manifold Learning – p. 21

Page 26: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Exponential map

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

(t)

r

φ

p

vw

q

expp : TpMk → Mk

expp(v) = r expp(w) = q

Geodesic φ(t)

φ(0) = p, φ(‖v‖) = qdφ(t)

dt

∣∣∣∣0

= v

kGeometric Methods and Manifold Learning – p. 22

Page 27: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Laplace-Beltrami operator

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

2x

1p x

f : Mk → R

expp : TpMk → Mk

∆Mf(p) ≡∑

i

∂2f(expp(x))

∂x2i

Orthonormal coordinate system.

Geometric Methods and Manifold Learning – p. 23

Page 28: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Intrinsic Curvature

cannot flatten —— can flatten

nonzero curvature —— zero curvature

No accurate map of Earth exists – Gauss’s theorem.

Geometric Methods and Manifold Learning – p. 24

Page 29: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Dimensionality Reduction

Given x1, . . . , xn ∈ M ⊂ RN ,

Find y1, . . . , yn ∈ Rd where d << N

ISOMAP (Tenenbaum, et al, 00)

LLE (Roweis, Saul, 00)

Laplacian Eigenmaps (Belkin, Niyogi, 01)

Local Tangent Space Alignment (Zhang, Zha, 02)

Hessian Eigenmaps (Donoho, Grimes, 02)

Diffusion Maps (Coifman, Lafon, et al, 04)

Related: Kernel PCA (Schoelkopf, et al, 98)

Geometric Methods and Manifold Learning – p. 25

Page 30: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Algorithmic framework

Geometric Methods and Manifold Learning – p. 26

Page 31: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Algorithmic framework

Geometric Methods and Manifold Learning – p. 26

Page 32: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Algorithmic framework

Neighborhood graph common to all methods.

Geometric Methods and Manifold Learning – p. 26

Page 33: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Isomap

1. Construct Neighborhood Graph.

2. Find shortest path (geodesic) distances.

Dij is n× n

3. Embed using Multidimensional Scaling.

Geometric Methods and Manifold Learning – p. 27

Page 34: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Multidimensional Scaling

Idea: Distances → Inner products → Embedding

1. Inner product from distances:

〈x,x〉 − 2〈x,y〉 + 〈y,y〉 = ‖x − y‖2

Aii + Ajj − 2Aij = Dij

Answer:

A = −1

2HDH where H = I − 1

n11T

In general only an approximation.

Geometric Methods and Manifold Learning – p. 28

Page 35: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Multidimensional Scaling

2. Embedding from inner products (same as PCA!).

Consider a positive definite matrix A. Then Aij correspondsto inner products.

A =n∑

i=1

λiφiφTi

Then for any x ∈ {1, . . . , n}

ψ(x) =(√

λ1φi(x), . . . ,√

λkφk(x))

∈ Rk

Geometric Methods and Manifold Learning – p. 29

Page 36: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Isomap

From Tenenbaum, et al. 00

Geometric Methods and Manifold Learning – p. 30

Page 37: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Unfolding flat manifolds

Isomap:“unfolds” a flat manifold isometric to a convex domain in R

n.

Hessian Eigenmaps:“unfolds” and flat manifold isometric to an arbitrary domainin R

n.

LTSA can also find an unfolding.

Geometric Methods and Manifold Learning – p. 31

Page 38: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Locally Linear Embedding1. Construct Neighborhood Graph.

2. Let x1, . . . , xn be neighbors of x. Project x to the span ofx1, . . . , xn.

3. Find barycentric coordinates of x.

x3

x

x

x

1

2

x

x = w1x1 + w2x2 + w3x3

w1 + w2 + w3 = 1

Weights w1, w2, w3 chosen,so that x is the center of mass.

Geometric Methods and Manifold Learning – p. 32

Page 39: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Locally Linear Embedding

4. Construct sparse matrix W . i th row is barycentriccoordinates of xi in the basis of its nearest neighbors.

5. Use lowest eigenvectors of (I −W )t(I −W ) to embed.

Geometric Methods and Manifold Learning – p. 33

Page 40: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Laplacian and LLE

Ox

x

1

2

3x∑

wixi = 0

wi = 1

Hessian H. Taylor expansion :

f(xi) = f(0) + xti∇f +

1

2xt

iHxi + o(‖xi‖2)

(I − W )f(0) = f(0) −∑

wif(xi) ≈ f(0) −∑

wif(0) −∑

i

wixti∇f −

1

2

i

xtiHxi =

= −1

2

i

xtiHxi ≈ −trH = ∆f

Geometric Methods and Manifold Learning – p. 34

Page 41: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Laplacian Eigenmaps

Step 1 [Constructing the Graph]

eij = 1 ⇔ xi “close to” xj

1. ǫ-neighborhoods. [parameter ǫ ∈ R] Nodes i and j are connected by an edge if

||xi − xj ||2 < ǫ

2. n nearest neighbors. [parameter n ∈ N] Nodes i and j are connected by an edge if i is amongn nearest neighbors of j or j is among n nearest neighbors of i.

Geometric Methods and Manifold Learning – p. 35

Page 42: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Laplacian Eigenmaps

Step 2 . [Choosing the weights].

1. Heat kernel. [parameter t ∈ R]. If nodes i and j are connected, put

Wij = e−||xi−xj ||2

t

2. Simple-minded. [No parameters]. Wij = 1 if and only if vertices i and j are connected by anedge.

Geometric Methods and Manifold Learning – p. 36

Page 43: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Laplacian Eigenmaps

Step 3. [Eigenmaps] Compute eigenvalues and eigenvectors for the generalized eigenvector problem:

Lf = λDf

D is diagonal matrix where

Dii =∑

j

Wij

L = D − W

Let f0, . . . , fk−1 be eigenvectors.

Leave out the eigenvector f0 and use the next m lowest eigenvectors for embedding in an

m-dimensional Euclidean space.

Geometric Methods and Manifold Learning – p. 37

Page 44: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Diffusion Distance

Heat diffusion operator Ht.

δx and δy initial heat distributions.

Diffusion distance between x and y:

‖Htδx −Htδy‖L2

Difference between heat distributions after time t.

Geometric Methods and Manifold Learning – p. 38

Page 45: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Diffusion Maps

Embed using weighted eigenfunctions of the Laplacian:

x→ (e−λ1tf1(x), e−λ2tf2(x), . . .)

Diffusion distance is (approximated by) the distancebetween the embedded points.

Closely related to random walks on graphs.

Geometric Methods and Manifold Learning – p. 39

Page 46: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Justification

Find y1, . . . , yn ∈ R

min∑

i,j

(yi − yj)2Wij

Tries to preserve locality

Geometric Methods and Manifold Learning – p. 40

Page 47: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

A Fundamental Identity

But

1

2

i,j

(yi − yj)2Wij = yTLy

i,j

(yi − yj)2Wij =

i,j

(y2i + y2

j − 2yiyj)Wij

=∑

i

y2i Dii +

j

y2j Djj − 2

i,j

yiyjWij

= 2yT Ly

Geometric Methods and Manifold Learning – p. 41

Page 48: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Embedding

λ = 0 → y = 1

minyT 1=0

yTLy

Let Y = [y1y2 . . .ym]

i,j

||Yi − Yj ||2Wij = trace(Y T LY )

subject to Y T Y = I.

Use eigenvectors of L to embed.

Geometric Methods and Manifold Learning – p. 42

Page 49: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

PCA versus Laplacian Eigenmaps

0 20 40

0

10

20

30

40

nz = 75 −5 0 5

x 10−3

−8

−6

−4

−2

0

2

4

6

8x 10

−3

−2 0 2−4

−2

0

2

4

Geometric Methods and Manifold Learning – p. 43

Page 50: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

On the Manifold

smooth map f : M → R

M‖∇Mf‖2 ≈

i∼j

Wij(fi − fj)2

Recall standard gradient in Rk of f(z1, . . . , zk)

∇f =

∂f∂z1

∂f∂z2

·

·∂f∂zk

Geometric Methods and Manifold Learning – p. 44

Page 51: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Curves on Manifolds

Consider a curve on M

c(t) ∈ M t ∈ (−1, 1) p = c(0); q = c(τ)

f(c(t)) : (−1, 1) → R

|f(0) − f(τ)| > dG(p, q)‖∇Mf(p)‖

Geometric Methods and Manifold Learning – p. 45

Page 52: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Stokes Theorem

A Basic Fact ∫

M‖∇Mf‖2 =

f · ∆Mf

This is like∑

i,j

Wij(fi − fj)2 = fTLf

where∆Mf is the manifold Laplacian

Geometric Methods and Manifold Learning – p. 46

Page 53: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Manifold Laplacian

Recall ordinary Laplacian in Rk

This maps

f(x1, . . . , xk) →(

−k∑

i=1

∂2f

∂x2i

)

Manifold Laplacian is the same on the tangent space.

Geometric Methods and Manifold Learning – p. 47

Page 54: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Properties of Laplacian

Eigensystem∆Mf = λiφi

λi ≥ 0 and λi → ∞

{φi} form an orthonormal basis for L2(M)

‖∇Mφi‖2 = λi

Geometric Methods and Manifold Learning – p. 48

Page 55: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

The Circle: An Example

φ

−d2u

dt2= λu where u(0) = u(2π)

Eigenvalues areλn = n2

Eigenfunctions are

sin(nt), cos(nt)

Geometric Methods and Manifold Learning – p. 49

Page 56: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

From graphs to manifolds

f : M → R x ∈ M x1, . . . , xn ∈ M

Graph Laplacian:

Ltn(f)(x) = f(x)

j

e−‖x−xj‖

2

t −∑

j

f(xj)e−

‖x−xj‖2

t

Theorem [pointwise convergence] tn = n−1

k+2+α

limn→∞

(4πtn)−k+2

2

nLtn

n f(x) = ∆Mf(x)

Belkin 03, Lafon Coifman 04, Belkin Niyogi 05, Hein et al 05

Geometric Methods and Manifold Learning – p. 50

Page 57: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

From graphs to manifolds

Theorem [convergence of eigenfunctions]

limt→0,n→∞

Eig[Ltnn ] → Eig[∆M]

Belkin Niyogi 06

Geometric Methods and Manifold Learning – p. 51

Page 58: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Estimating Dimension from Laplacian

λ1 ≤ λ2 . . . ≤ λj ≤ . . .

Then

A+2

dlog(j) ≤ log(λj) ≤ B +

2

dlog(j + 1)

Example: on S1

λj = j2 =⇒ log(λj) =2

1log(j)

(Li and Yau; Weyl’s asymptotics)

Geometric Methods and Manifold Learning – p. 52

Page 59: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Visualization

Data representation, dimensionality reduction, visualiz ation

Visualizing spaces of digits.Partiview, Ndaona, Surendran 04

Geometric Methods and Manifold Learning – p. 53

Page 60: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Motion estimation

Markerless motion estimation: inferring joint angles.Corazza, Andriacchi, Stanford Biomotion Lab, 05, Partiview, Surendran

Isometrically invariant representation. [link]Eigenfunctions of the Laplacian are invariant underisometries.

Geometric Methods and Manifold Learning – p. 54

Page 61: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Graphics, etc

Laplacian from meshes/non-probabilistic point clouds.Belkin, Sun, Wang 08, 09

Geometric Methods and Manifold Learning – p. 55

Page 62: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Recall

Heat equation in Rn:

u(x, t) – heat distribution at time t.u(x, 0) = f(x) – initial distribution. x ∈ R

n, t ∈ R.

∆Rnu(x, t) =du

dt(x, t)

Solution – convolution with the heat kernel:

u(x, t) = (4πt)−n2

Rn

f(y)e−‖x−y‖2

4t dy

Geometric Methods and Manifold Learning – p. 56

Page 63: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Proof idea (pointwise convergence)Functional approximation:Taking limit as t→ 0 and writing the derivative:

∆Rnf(x) =d

dt

[

(4πt)−n2

Rn

f(y)e−‖x−y‖2

4t dy

]

0

Geometric Methods and Manifold Learning – p. 57

Page 64: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Proof idea (pointwise convergence)Functional approximation:Taking limit as t→ 0 and writing the derivative:

∆Rnf(x) =d

dt

[

(4πt)−n2

Rn

f(y)e−‖x−y‖2

4t dy

]

0

∆Rnf(x) ≈ −1

t(4πt)−

n2

(

f(x) −∫

Rn

f(y)e−‖x−y‖2

4t dy

)

Geometric Methods and Manifold Learning – p. 57

Page 65: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Proof idea (pointwise convergence)Functional approximation:Taking limit as t→ 0 and writing the derivative:

∆Rnf(x) =d

dt

[

(4πt)−n2

Rn

f(y)e−‖x−y‖2

4t dy

]

0

∆Rnf(x) ≈ −1

t(4πt)−

n2

(

f(x) −∫

Rn

f(y)e−‖x−y‖2

4t dy

)

Empirical approximation:Integral can be estimated from empirical data.

∆Rnf(x) ≈ −1

t(4πt)−

n2

(

f(x) −∑

xi

f(xi)e−

‖x−xi‖2

4t

)

Geometric Methods and Manifold Learning – p. 57

Page 66: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Some difficulties

Some difficulties arise for manifolds:

Do not know distances.

Do not know the heat kernel.

||x−y||

x

y

M

dist (x,y)M

Geometric Methods and Manifold Learning – p. 58

Page 67: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Some difficulties

Some difficulties arise for manifolds:

Do not know distances.

Do not know the heat kernel.

||x−y||

x

y

M

dist (x,y)M

Careful analysis needed.

Geometric Methods and Manifold Learning – p. 58

Page 68: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

The Heat Kernel

Ht(x, y) =∑

i e−λitφi(x)φi(y)

in Rd, closed form expression

Ht(x, y) =1

(4πt)d/2e−

‖x−y‖2

4t

Goodness of approximation depends on the gap∣∣∣∣Ht(x, y) −

1

(4πt)d/2e−

‖x−y‖2

4t

∣∣∣∣

Ht is a Mercer kernel intrinsically defined on manifold.Leads to SVMs on manifolds.

Geometric Methods and Manifold Learning – p. 59

Page 69: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Three Remarks on Noise

1. Arbitrary probability distribution on the manifold:convergence to weighted Laplacian.

2. Noise off the manifold:µ = µMd + µRN

Thenlimt→0

Ltf(x) = ∆f(x)

3. Noise off the manifold:

z = x+ η (∼ N(0, σ2I))

We havelimt→0

limσ→0

Lt,σf(x) = ∆f(x)

Geometric Methods and Manifold Learning – p. 60

Page 70: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

NLDR: some references

� A global geometric framework for nonlinear dimensionality reduction.J.B. Tenenbaum, V. de Silva and J. C. Langford, 00.� Nonlinear Dimensionality Reduction by Locally Linear Embedding.L. K. Saul and S. T. Roweis. 00� Laplacian Eigenmaps for Dimensionality Reduction and Data Representation.M.Belkin, P.Niyogi, 01.� Hessian Eigenmaps: new locally linear embedding techniques for high-dimensional data. D. L.Donoho and C. Grimes, 02.� Principal Manifolds and Nonlinear Dimension Reduction via Local Tangent Space Alignment.Zhenyue Zhang and Hongyuan Zha. 02.� Charting a manifold. Matthew Brand, 03� Diffusion Maps. R. Coifman and S. Lafon. 04.� Many more: http://www.cse.msu.edu/∼lawhiu/manifold/

Geometric Methods and Manifold Learning – p. 61

Page 71: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Unlabeled data

Reasons to use unlabeled data in inference:

� Pragmatic:

Unlabeled data is everywhere. Need a way to use it.

� Philosophical:

The brain uses unlabeled data.

Geometric Methods and Manifold Learning – p. 62

Page 72: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Geometry of classification

How does shape of the data affect classification?

� Manifold assumption.

� Cluster assumption.

Reflect our understanding of structure of natural data.

Geometric Methods and Manifold Learning – p. 63

Page 73: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Intuition

Geometric Methods and Manifold Learning – p. 64

Page 74: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Intuition

Geometric Methods and Manifold Learning – p. 64

Page 75: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Intuition

Geometric Methods and Manifold Learning – p. 64

Page 76: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Intuition

Geometry of data changes our notion of similarity.

Geometric Methods and Manifold Learning – p. 64

Page 77: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Manifold assumption

Geometric Methods and Manifold Learning – p. 65

Page 78: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Manifold assumption

Geometric Methods and Manifold Learning – p. 65

Page 79: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Manifold assumption

Geometry is important.

Geometric Methods and Manifold Learning – p. 65

Page 80: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Geodesic Nearest Neighbors

20 50 100 500 1000 5000

8

15

30

50

Number of Labeled Points

Err

or r

ate,

%k−NN Geodesic k−NN

Geometric Methods and Manifold Learning – p. 66

Page 81: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Cluster assumption

Geometric Methods and Manifold Learning – p. 67

Page 82: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Cluster assumption

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

Geometric Methods and Manifold Learning – p. 67

Page 83: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Unlabeled data

Geometry is important.

Geometric Methods and Manifold Learning – p. 68

Page 84: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Unlabeled data

Geometry is important.Unlabeled data to estimate geometry.

Geometric Methods and Manifold Learning – p. 68

Page 85: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Manifold assumption

Manifold/geometric assumption:functions of interest are smooth with respect to theunderlying geometry.

Geometric Methods and Manifold Learning – p. 69

Page 86: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Manifold assumption

Manifold/geometric assumption:functions of interest are smooth with respect to theunderlying geometry.

Probabilistic setting:Map X → Y . Probability distribution P on X × Y .

Regression/(two class)classification: X → R.

Geometric Methods and Manifold Learning – p. 69

Page 87: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Manifold assumption

Manifold/geometric assumption:functions of interest are smooth with respect to theunderlying geometry.

Probabilistic setting:Map X → Y . Probability distribution P on X × Y .

Regression/(two class)classification: X → R.

Probabilistic version:conditional distributions P (y|x) are smooth with respect tothe marginal P (x).

Geometric Methods and Manifold Learning – p. 69

Page 88: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

What is smooth?

Function f : X → R. Penalty at x ∈ X:

1

δk+2

small δ

(f(x) − f(x+ δ))2 p(x)d δ ≈ ‖∇f‖2p(x)

Total penalty – Laplace operator:∫

X‖∇f‖2p(x) = 〈f,∆pf〉X

Geometric Methods and Manifold Learning – p. 70

Page 89: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

What is smooth?

Function f : X → R. Penalty at x ∈ X:

1

δk+2

small δ

(f(x) − f(x+ δ))2 p(x)d δ ≈ ‖∇f‖2p(x)

Total penalty – Laplace operator:∫

X‖∇f‖2p(x) = 〈f,∆pf〉X

Two-class classification – conditional P (1|x).

Manifold assumption: 〈P (1|x),∆pP (1|x)〉X is small.

Geometric Methods and Manifold Learning – p. 70

Page 90: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Example

−1 0 1 2

−1

0

1

2

γA = 0.03125 γ

I = 0

SVM

−1 0 1 2

−1

0

1

2

Laplacian SVM

γA = 0.03125 γ

I = 0.01

−1 0 1 2

−1

0

1

2

Laplacian SVM

γA = 0.03125 γ

I = 1

Geometric Methods and Manifold Learning – p. 71

Page 91: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Example

−1 0 1 2

−1

0

1

2

γA = 0.03125 γ

I = 0

SVM

−1 0 1 2

−1

0

1

2

Laplacian SVM

γA = 0.03125 γ

I = 0.01

−1 0 1 2

−1

0

1

2

Laplacian SVM

γA = 0.03125 γ

I = 1

Geometric Methods and Manifold Learning – p. 71

Page 92: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Regularization

Estimate f : RN → R

Data: (x1, y1), . . . , (xl, yl)

Regularized least squares (hinge loss for SVM):

f∗ = argminf∈H

1

l

(f(xi) − yi)2 + λ‖f‖2

K

fit to data + smoothness penalty

‖f‖K incorporates our smoothness assumptions.Choice of ‖ ‖K is important.

Geometric Methods and Manifold Learning – p. 72

Page 93: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Algorithm: RLS/SVMSolve : f∗ = argmin

f∈H

1

l

(f(xi) − yi)2 + λ‖f‖2

K

‖f‖K is a Reproducing Kernel Hilbert Space norm withkernel K(x,y).

Can solve explicitly (via Representer theorem):

f∗(·) =l∑

i=1

αiK(xi, ·)

[α1, . . . , αl]t = (K + λI)−1[y1, . . . , yl]

t

(K)ij = K(xi,xj)

Geometric Methods and Manifold Learning – p. 73

Page 94: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Manifold regularization

Estimate f : RN → R

Labeled data: (x1, y1), . . . , (xl, yl)

Unlabeled data: xl+1, . . . ,xl+u

f∗ = argminf∈H

1

l

(f(xi) − yi)2 + λA‖f‖2

K + λI‖f‖2I

fit to data + extrinsic smoothness + intrinsic smoothness

Empirical estimate:

‖f‖2I =

1

(l + u)2[f(x1), . . . , f(xl+u)]L [f(x1), . . . , f(xl+u)]t

Geometric Methods and Manifold Learning – p. 74

Page 95: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Laplacian RLS/SVM

Representer theorem (discrete case):

f∗(·) =l+u∑

i=1

αiK(xi, ·)

Explicit solution for quadratic loss:

α = (JK + λAlI +λI l

(u+ l)2LK)−1[y1, . . . , yl, 0, . . . , 0]t

(K)ij = K(xi,xj), J = diag (1, . . . , 1︸ ︷︷ ︸

l

, 0, . . . , 0︸ ︷︷ ︸

u

)

Geometric Methods and Manifold Learning – p. 74

Page 96: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Experimental results: USPS

10 20 30 400

5

10

15

20

RLS vs LapRLS

45 Classification Problems

Erro

r Rat

es

10 20 30 400

5

10

15

20

SVM vs LapSVM

45 Classification ProblemsEr

ror R

ates

10 20 30 400

5

10

15

20TSVM vs LapSVM

45 Classification Problems

Erro

r Rat

es

0 5 10 150

5

10

15Out−of−Sample Extension

LapRLS (Unlabeled)

LapR

LS (T

est)

0 5 10 150

5

10

15Out−of−Sample Extension

LapSVM (Unlabeled)

LapS

VM (T

est)

0 2 4 60

5

10

15Std Deviation of Error Rates

SVM

(o) ,

TSV

M (x

) Std

Dev

LapSVM Std Dev

TSVMLapSVM

SVMLapSVM

RLSLapRLS

Geometric Methods and Manifold Learning – p. 74

Page 97: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Experimental comparisons

Dataset → g50c Coil20 Uspst mac-win WebKB WebKB WebKB

Algorithm ↓ (link) (page) (page+link)

SVM (full labels) 3.82 0.0 3.35 2.32 6.3 6.5 1.0

SVM (l labels) 8.32 24.64 23.18 18.87 25.6 22.2 15.6

Graph-Reg 17.30 6.20 21.30 11.71 22.0 10.7 6.6

TSVM 6.87 26.26 26.46 7.44 14.5 8.6 7.8

Graph-density 8.32 6.43 16.92 10.48 - - -

∇TSVM 5.80 17.56 17.61 5.71 - - -

LDS 5.62 4.86 15.79 5.13 - - -

LapSVM 5.44 3.66 12.67 10.41 18.1 10.5 6.4

Geometric Methods and Manifold Learning – p. 74

Page 98: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Geometry of clustering

Probability distribution P .

What are clusters? Geometric question.

How does one estimate clusters given finite data?

Geometric Methods and Manifold Learning – p. 74

Page 99: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Spectral graph clustering

−0.46 0.46

0.46

0.26

−0.46

−0.26

0.46

Geometric Methods and Manifold Learning – p. 74

Page 100: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Spectral graph clustering

−0.46

−0.46

−0.26

0.46

0.46

0.26

0.46

Geometric Methods and Manifold Learning – p. 74

Page 101: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Spectral graph clustering

−0.46

−0.46

−0.26

0.46

0.46

0.26

L =

2 −1 −1 0 0 0

−1 2 −1 0 0 0

−1 −1 3 −1 0 0

0 0 −1 3 −1 −1

0 0 0 −1 2 −1

0 0 0 −1 −1 2

Unnormalized clustering:

Le1 = λ1e1 e1 = [−0.46,−0.46,−0.26, 0.26, 0.46, 0.46]

Geometric Methods and Manifold Learning – p. 74

Page 102: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Spectral graph clustering

−0.46

−0.46

−0.26

0.46

0.46

0.26

L =

2 −1 −1 0 0 0

−1 2 −1 0 0 0

−1 −1 3 −1 0 0

0 0 −1 3 −1 −1

0 0 0 −1 2 −1

0 0 0 −1 −1 2

Unnormalized clustering:

Le1 = λ1e1 e1 = [−0.46,−0.46,−0.26, 0.26, 0.46, 0.46]

Normalized clustering:

Le1 = λ1De1 e1 = [−0.31,−0.31,−0.18, 0.18, 0.31, 0.31]

Geometric Methods and Manifold Learning – p. 74

Page 103: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Graph Clustering: Mincut

Mincut: minimize the number (total weight) of edges cut).

argminS

i∈S, j∈V −S

wij

Geometric Methods and Manifold Learning – p. 75

Page 104: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Graph Laplacian

f

f ff 1

f

f

2

3 4

5

6

L =

2 −1 −1 0 0 0

−1 2 −1 0 0 0

−1 −1 3 −1 0 0

0 0 −1 3 −1 −1

0 0 0 −1 2 −1

0 0 0 −1 −1 2

Basic fact:∑

i∼j

(fi − fj)2wij =

1

2f t L f

Geometric Methods and Manifold Learning – p. 76

Page 105: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Graph Laplacian

f

f ff 1

f

f

2

3 4

5

6

L =

2 −1 −1 0 0 0

−1 2 −1 0 0 0

−1 −1 3 −1 0 0

0 0 −1 3 −1 −1

0 0 0 −1 2 −1

0 0 0 −1 −1 2

argminS

i∈S, j∈V −S

wij = argminfi∈{−1,1}

i∼j

(fi − fj)2 =

1

8argmin

fi∈{−1,1}f t L f

Relaxation gives eigenvectors.

Lv = λv

Geometric Methods and Manifold Learning – p. 77

Page 106: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Consistency of spectral clusteringLimit behavior of spectral clustering.

x1, . . . ,xn n→ ∞

Sampled from probability distribution P on X.

Theorem 1:Normalized spectral clustering (bisectioning) is consistent.

Theorem 2:Unnormalized spectral clustering may not convergedepending on the spectrum of L and P .

von Luxburg Belkin Bousquet 04

Geometric Methods and Manifold Learning – p. 78

Page 107: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Continuous Cheeger clusteringIsoperimetric problem. Cheeger constant.

−M M1 1

δM 1M

h = infvoln−1(δM1)

min (voln(M1), voln(M−M1))

Geometric Methods and Manifold Learning – p. 79

Page 108: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Continuous spectral clusteringLaplacian eigenfunction as a relaxation of the isoperimetric problem.

−M1 1

δM 1MM

cutto cluster

e1

e1= λ1e1∆

h = infvoln−1(δM1)

min (voln(M1), voln(M−M1))

0 = λ0 ≤ λ1 ≤ λ2 ≤ . . .

h ≤√

λ1

2[Cheeger]

Geometric Methods and Manifold Learning – p. 80

Page 109: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Estimating volumes of cuts

δSδS∑

i∈blue

j∈red

wij√djdj

wij = e−‖xi−xj‖

2

4t

di =∑

j

wij

Theorem:

vol(δS) ≈2

N

1

(4πt)n/2

√π

t1t

S L1S

L is the normalized graph Laplacian and 1S is the indicator vectorof points in S. (Narayanan Belkin Niyogi, 06)

Geometric Methods and Manifold Learning – p. 81

Page 110: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Clustering

Clustering is all about geometry of unlabeled data (nolabeled data!).

Need to combine probability density with the geometry ofthe total space.

Geometric Methods and Manifold Learning – p. 82

Page 111: Geometric Methods and Manifold Learning · Geometric Methods and Manifold Learning Mikhail Belkin, Ohio State University, prepared jointly with Partha Niyogi Geometric Methods and

Future Directions

Machine Learning

Scaling UpMulti-scaleGeometry of Natural DataGeometry of Structured Data

Algorithmic Nash embedding

Graphics / Non-randomly sampled data

Random Hodge Theory

Partial Differential Equations

Algorithms

Geometric Methods and Manifold Learning – p. 83