D.Sosna: Bio-DB, SS 09 Kapitel 4 – 1 / 28
Vorlesung:Bio-DatenbankenKapitel 4: Ahnlichkeit nach Abstand
Dr. Dieter Sosna
26. Mai 2009
Kapitel 4: Ahnlichkeit (Abstand)
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 2 / 28
Allgemeines
Mathematischer Abstandsbegriff
Mengen
Zeichenketten
Abstande bei Bildern
Zwischenstand
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 3 / 28
■ Wichtiger Aspekt bei Datenintegration:Finden von Daten, die sich verschiedenen Quellen befinden und sich auf dasgleiche Objekt der Welt oder des theoretischen Modells beziehen.Deshalb Grundfunktionen:Test auf Gleichheit bzw. Ahnlichkeit.
■ Der mathematische Ahnlichkeitsbegriff (Aquivalenzbegriff) ist nur in wenigenBeispielen vertreten.
■ Meßfehler u.a. bedingen einen schwacheren Begriff.
Mathematischer Abstandsbegriff
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 4 / 28
Motivation der Abschwachung
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 5 / 28
■ Grunde: Fehlertoleranz, Ausgleich von (Meß-)Ungenauigkeiten.■ ziemlich ahnlich (∼z): Gegeben eine Zahl ε > 0. Zwei Dreiecke D1, D2 heißen
ziemlich ahnlich g.d.w. sich jeder Winkel von seiner Entsprechung im anderenDreieck hochstens ε unterscheidet:max(|α1 − α2|, β1 − β2|, |γ1 − γ2|) ≤ ε , Winkel im Bogenmaß. (*)
■ Beispiel: Gegeben ε = 0, 1 ,3 Dreiecke D1, D2, D3 mit jeweis passendem 3. Winkel.∆ 1 2 3
α 0,5 0,6 0,7β 1 1 1
Dann gilt D1 ∼z D2 und D2 ∼z D3
aber nicht D1 ∼z D3 Verlust der Transitivitat■ Ahnlichkeit in zwei homonymen Bedeutungen:
(geometr.) Ahnlichkeit vs. ClusterbildungD1, D2, D3 im Cluster (um Zentrum D2 und mit ε < 0, 1).
■ Ist durch (*) ein Abstand definiert?
Mathematischer Abstandsbegriff
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 6 / 28
■ Funktionalanalysis - Metrische RaumeSeien D eine Vektorraum, ρ eine Abbildung, ρ: D ×D 7→ R+ ∪ {0} mit:i : ρ(x, y) ≥ 0 fur x, y ∈ D, ρ = 0 ↔ x = y.ii: ρ(x, y) = ρ(y, x), x, y ∈ D (Symmetrie)iii: ρ(x, y) ≤ ρ(x, z) + ρ(z, y), x, y, z ∈ D (Dreiecksungleichung),ρ(., .) heißt eine Metrik auf D
■ ohne die Bedingung ρ = 0 ↔ x = y: Pseudometrik■ Informatik meist: D sei (nur) eine Menge. Ausnahmen ?■ Zu einer Menge kann es mehrere, verschiedene Abstandsdefinitionen geben (→
verschiedene Raume)■ SATZ: Sei B ein normierter Raum mit der Norm ‖.‖, dann ist
ρ(x, y) = ‖x − y‖ eine Metrik.■ Nicht aus Norm erzeugt: Diskrete Metrik: ρ = 0 ↔ x = y, ρ = 1 sonst.
Warum ist die diskrete Metrik fur die Ahnlichkeitsbestimmung ungeeignet?
Beispiele normierter Raume
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 7 / 28
Funktionenraume
■ D Menge der uber einem abgeschlossenen Intervall I stetigen Funktionen f :‖f‖ = maxx∈I(|f(x)|).
■ L1, Lp: D Menge der messbaren Funktionen uber einem abgeschlossenenIntervall I mit
∫
I |f |pdx < ∞, 1 ≤ p < ∞, fest, ‖f‖ = (∫
I |f |pdx)1/p, 1 ≤ p < ∞.■ L∞: D Menge der messbaren Funktionen uber einem abgeschlossenen Intervall
I mitess supx∈I(|f(x)|) < ∞, ‖f‖ = ess supx∈I(|f(x)|).
Beispiele - diskreter Fall
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 8 / 28
Folgenraume
■ l1, lp: D Menge der Folgen a = {ai}∞i=1 mit∑∞
i=1(|ai|p) < ∞, 1 ≤ p < ∞, fest, ‖a‖ = (
∑∞i=1
(|ai|p))1/p.■ l∞: D Menge der Folgen a = {ai}∞i=1 mit
maxi(|ai|) < ∞, ‖a‖ = maxi(|ai|).Endlich viele Folgenglieder: a = {ai}m
i=1
■ D Menge der Folgen a = {ai}mi=1 mit
‖a‖ = (∑m
i=1(|ai|p))1/p, 1 ≤ p < ∞, fest.
p = 1 fuhrt auf die Manhattan-Metrik,p = 2 auf die Euklidische Metrik.
■ D Menge der Folgen a = {ai}mi=1 mit
‖a‖ = maxi(|ai|).Freiwillige Ubungsaufgabe: Skizzieren Sie fur m = 2 das Aussehen desEinheitskreises in Abhangigkeit von p : p = 1, p = 2, p = ∞.
Endlich viele Folgenglieder
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 9 / 28
■ a = {ai}mi=1 kann als Vektor der Dimension m gelten.
■ SATZ: Die Manhattan-Norm, die euklidische Norm und die Maximum-Normsind aquivalent, d.h.es gibt Konstanten c1, c2 ∈ R , mit denen eine Norm die andere nach oben undnach unten abschatzt:
c1‖.‖1 ≤ ‖.‖2 ≤ c2‖.‖1
(Beweis: Ausrechnen.)M.a.W.: man kann haufig zu einer vorteilhafteren Norm gehen,(beispielsweise ist die Manhattannorm vielfach einfacher zu berechnen als dieeuklidische Norm).UA:Die Konstanten hangen von m ab!Berechnen Sie optimale Konstanten fur m = 2 und fur m = 3.
Distanzfunktionen mit Gewichten
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 10 / 28
Sei A eine positiv semidefinite m-reihige Matrix.x, y ∈ Rm.
■ Gewichtete Distanzfunktion:ρ(A; x, y) =
(
(x − y)TA(x − y))1/2
Anwendung: Modellierung eines Farbkreisesgleicher Helligkeit (Empfindlichkeitdes Auges ist farbabhangig).
■ Sonderfall:A hat Diagonalgestalt: Euklidische Distanz mit Gewichtung derAchsenrichtungen.
◆ Beispiel: A = (ai,j)m,m1=1,j=1
, mit ai,j = 0 furj 6= j, ai,i = 1/i(Unterschiede werden umso schwacher bewertet, je hoher der Index)
◆ Wahlt man fur A die Einheitsmatrix, erhalt man die euklidische Distanz.(
(x − y)T (x − y))1/2
=(∑m
i=1(xi − yi)
2)1/2
Zahlen
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 11 / 28
Triviales Beispiel fur Abstandsfunktion:Betrag: seien a, b zwei reelle Zahlen, euklidischer Abstand:
ρ(a, b) = ‖a − b‖ = ((a − b)2)1/2 = |a − b|( Metrik durch Norm erzeugt, beachten Sie (a2)1/2 = |a|, a ∈ R.Nachweis der Eigenschaften einer Metrik : freiwillige UA.Vergleich mit den lp-Normen: Spezialfall fur Zahl der Folgenglieder m = 1 und allep.
Matrixnormen
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 12 / 28
Sei V = (M, ‖.‖) der m-dimensionale Vektorraum Rm. A eine m × m-Matrix.Dann wird durch
‖A‖M = supx6=0
‖Ax‖V
‖x‖V
= max‖x‖V =1 ‖Ax‖V
eine Norm auf der Menge aller m × m-Matrizen definiert.Andere Matrixnormen:Spektralnorm
‖A‖2
=√
λmax
Dabei ist λmax der betragsmaßig großte Eigenwert von (AT A) ist (1).Spaltensummennorm
‖A‖1
= maxj∑m
i=1|aij |
Zeilensummennorm‖A‖∞ = maxi
∑mj=1
|aij |Gesamtnorm
‖A‖ = m · maxi,j∈{1,...,m} |aij |1A
T ist die zu A adjungierte Matrix.
Beispiele fur Abstandsmaße
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 13 / 28
■ Ziel:Aufzeigen von Beispielen fur die komplexbildenden Grundkonstruktionen derInformatik.Mengen, Vektoren (Zeichenketten)
■ Varianten, Kombinationen
Mengen
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 14 / 28
Hausdorffdistanz
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 15 / 28
■ Warnung vor der scheinbaren Triviallosung.■ Abstand zweier kompakter Mengen A,B eines metrischen Raumes R, Metrik
d(., .) kompakte M. im metr.Raum: Grenzwert jeder konverg. Folge gehort zurMenge.
◆ gerichteter Abstand:d1H(A,B) = max(supa∈A infb∈B d(a, b)
◆ Hausdorff-Distanz:dH(A,B) = max(supa∈A infb∈B d(a, b), supb∈B infa∈A d(a, b))
◆ Verbal:Zwei Mengen haben eine HD von hochstens r voneinander, g.d.w. jederPunkt einer Menge ist innerhalb eines Abstandes r von einem Punkt deranderen.
S.auch unten: Ahnlichkeit nach Inhalt.Beachten Sie: Gleichheit von Mengen ist durch gleichen Inhalt definiert:A = B g.d.w. A ⊆ B ∧ B ⊆ A.
Zeichenketten
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 16 / 28
Zeichenketten
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 17 / 28
■ Zeichenkette:= Liste von Elementen (Buchstaben) aus einer Grundmenge(Alphabet).Ggf. auch als Array ansprechbar oder als spezielle Vektoren
■ Abstanddefinitionen:Typ 1: spezielle fur Zeichenketten undTyp 2: allgemeine fur Vektoren.Typ 3: aus den Zeichenketten neue Objekte ableiten, fur diese neueAbstanddefinitionen geben und diese als Abstand der Zeichenketten definieren.
Hamming-Distanz
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 18 / 28
Richard W. Hamming. Error Detecting and Error Correcting Codes,Bell System Technical Journal 26(2):147-160, 1950.
■ Gegeben:Alphabet A, 2 Zeichenketten a = {ai}n
i=1, b = {bi}ni=1 der Lange n.
dH(a, b) =∑n
i=1,ai 6=bi(1)
Satz:dH ist eine Metrik auf der Menge der Zeichenketten der Lange n.■ Beispiel:
A = {0, 1} , Zeichenkette: Binarzahlen der Lange ndH(a, b) = Anzahl der 1-Zeichen in a xor b.Darstellung des Ubergangs von a nach b als Kantenfolge in einemn-dimensionalen Hyper-Wurfel.Manhattan-AbstandBeispiele: http://en.wikipedia.org/wiki/Hamming distance
Hamming-Distanz (2)
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 19 / 28
■ Mogliche Anwendung : FehlerkorrekturVoraussetzung: es gibt eine Menge der korrekten Zeichenketten KFalls Zeichenkette a /∈ K suche in K nach Zeichenkette mit dem kleistemAbstand zu a und ersetze damit a.
■ Probleme:Eindeutigkeit der Losung des Minimalproblems evt. nicht gegeben,die gefundene Losung muß nicht korrekt sein, insbesondere bei mehrfachenFehlern, (Sprachwissenschaften Erganzung durch andere Heuristiken,Haufigkeitsannahmen u.s.w....
Levenstein-Distanz
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 20 / 28
■ Auch: edit-distance■ Definition: Gegeben zwei Zeichenketten x = {xi}n
i=1, y = {yj}mj=1.
Grundoperationen mit Gewichtinsert(x, c, l): fugt in Zeichenkette x das Zeichen c an der Position l ein.Gewicht gi.delete((x, l): loscht in Zeichenkette x das Zeichen an der Position l. Gewichtgd.replace(x, c, l): ersetzt in Zeichenkette x das Zeichen an der Position l durchc. Gewicht gr.Gesucht: eine Folge von Grundoperationen minimalen Gesamtgewichts d ( =Summe der Gewichte), die x in y uberfuhrt.Das Gesamtgewicht einer Minimalfolge ist die Levenstein-Distanz von xund y.
Levenstein-Distanz (Verallgemeinerungen)
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 21 / 28
■ Gultigkeit einer Dreiecksungleichung fur Gewichte fur Operationen an einerPosition - jede Position nur einmal bearbeitet.
■ Die Gewichte konnen abhangen vom Zeichen (sowohl dem zu ersetzenden unddem ersetzenden) (unsymmertr. Metriken, symmetrisierbar)
■ Verallgemeinerung auf Baumstrukturen
Levenstein-Distanz (Berechnung)
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 22 / 28
■ Idee: Berechnung der Distanz aller moglichen Prafix-Paare der zweiZeichenketten x, Y .
■ x = ua, y = vb.
g(ua, vb) = min
gd(x, .) + g(u, vb) − Loeschen von agi(., b, .) + g((ua, v) − Einfuegen von bgr(a, b, .) + g(u, v) − Ersetzen a durch b
Levenstein-Distanz fur Baumstrukturen
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 23 / 28
■ Definition: Ein Baum besteht aus einem Knoten und einer daran angehangten,geordneten Folge disjunkter Baume. Eine solche Folge heißt Wald.
■ Grundoperationen: (jeweils mit Kosten zu versehen)Ersetzen eines Knotens (andert Baumstruktur nicht)Einfugen eines Knotens (verschiebt den neuen Wald)Loschen eines Knotens (verschiebt den Wald).
■ Gegeben zwei Walder F ,G. Sei X die Menge aller Folgen vonGrundoperationen, deren Hintereinanderausfuhrung F in G uberfuhrt. DieEditier-Distanz d(F ,G) ist das kleinste Gesamtgewicht eines Elenents aus X
■ Algorithmen: Tai - 1979: O(n6), Zhang-Shasha - 1989:O(n4), Klein - 1998:O(n3 log n).Forschungsgegenstand. (2004, 2005, ...)
Abstande bei Bildern
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 24 / 28
Ahnlichkeit von Bildern
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 25 / 28
■ Formale Daten: Große, Kodierung, Exif-Daten (Photo) Farbwerte anausgewahlten Koordinaten (Gen-array).
■ Inhaltsbezogene Verschlagwortung (teuer)■ Ermittlung typischer Werte hinsichtlich Farben (Sonnenuntergang, ...),
Farbverteilungen, ...Farbwerte an ausgewahlten Koordinaten (Gen-array).Farbmodell: RGB, HSV, YIQ
■ Niedere Koeffizienten der Fourier-Transformierten(JPEG, MP3 bei Ton)
Abstand von Farben
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 26 / 28
■ Farbmodell - Zahlentripel■ L*a*b*-Farbsystem (1976) - CIE
L-Achse: sw (0) - ws (100), a-Achse: gn (-150) - rt (100),b-Achse: bl (-100) - ge (150)Umrechnungsformeln zu anderen Systemen.Farbabstand: ∆Ea,b =
√∆L2 + ∆a2 + ∆b2 (ohne Sterne)
∆E Bewertung0,0 . . . 0,5 kein bis fast kein Unterschied0,5 . . . 1,0 Unterschied kann fur das geubte Auge bemerkbar sein1,0 . . . 2,0 merklicher Farbunterschied2,0 . . . 4,0 wahrgenommener Farbunterschied4,0 . . . 5,0 wesentlicher Farbunterschied, der selten toleriert wirdoberhalb 5,0 die Differenz wird als andere Farbe bewertet
■ http://de.wikipedia.org/wiki/Lab-Farbraum
Ahnlichkeit von Bildern (2)
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 27 / 28
Charles E. Jacobs: Fast Multiresolution Image Querying. Proc. SIGGRAPH 1995.
■ aus Inhalt charakteristische Daten errechnet:Farbmodell YIQ, Wavelettransformation (Haar Wavelets)
■ Idee d.Metrik: gewichtete L1-Norm von bearbeiteten WL-Koeffizienten derBilder Q, T fur jeden Kanal des Farbmodells:‖Q, T‖ = w0,0|Q(0, 0) − T (0, 0)| +
∑
i,j wi,j |Q(i, j) − T (i, j)|■ Praktische Metrik noch vereinfacht (Symmetrieverlust)- ist dann im math Sinn
keine Metrik.■ u.a. Vergleiche zwischen Kinderzeichnungen und Photographien moglich.
Ahnlichkeit von Bildern (2)
D.Sosna: Bio-DB, SS 09 Kapitel 4 – 28 / 28
Charles E. Jacobs: Fast Multiresolution Image Querying. Proc. SIGGRAPH 1995.
■ aus Inhalt charakteristische Daten errechnet:Farbmodell YIQ, Wavelettransformation (Haar Wavelets)
■ Idee d.Metrik: gewichtete L1-Norm von bearbeiteten WL-Koeffizienten derBilder Q, T fur jeden Kanal des Farbmodells:‖Q, T‖ = w0,0|Q(0, 0) − T (0, 0)| +
∑
i,j wi,j |Q(i, j) − T (i, j)|■ Praktische Metrik noch vereinfacht (Symmetrieverlust)- ist dann im math Sinn
keine Metrik.