Revision history for TutoriumDokumentstrukturanalyseSS18
Additions:
===**{{color text="Tutorium: Dokumentstrukturanalyse "c="#00386a"}}** ===
**{{color text="Tutor:" c="#00386a"}}**
Jordan Zapf
**{{color text="Ziel des Tutoriums:" c="#00386a"}}**
- Aufbau von Grundverständnis für Distanzmaße
- Vergleich von verschiedenen Ähnlichkeitskoeffizienten
- Programmierung der Levenshtein-Distanz
**{{color text="Adressaten des Lehrangebotes:" c="#00386a"}}**
Interessierte Studenten der Fakultät Informatik
**{{color text="Teilnahme:" c="#00386a"}}**
Wird durch Rundmail bekannt gegeben.
**{{color text="Veranstaltungsinhalte:" c="#00386a"}}**
======Distanzmaße======
Ähnlichkeitsmaße/ Distanzmaße werden im Rahmen der Datenanalyse (z.B. Clusteranalyse; Multidimensionale Skalierung) zur Bestimmung der Beziehungen zwischen Messobjekten eingesetzt. Dabei werden durch Vergleiche von metrisch skalierten Ausgangsdaten (Skalenniveau) die zwischen Objekten bestehenden Ähnlichkeiten gemessen. Ist die Distanz gering, dann ist die Ähnlichkeit groß; entsprechend sind sich Objekte bei großer Distanz sehr unähnlich.
=====Clusteranalyse=====
Oberbegriff für einen Typ der in der multivariaten Analyse und vor allem in der Clusteranalyse verwendeten Proximitätsmaße, mit denen im Gegensatz zu den Ähnlichkeitsmaßen und den - Korrelationsmaßen die Entfernungsbeziehung zwischen Meßobjekten bestimmt wird. Durch sie wird die Entfernung zwischen Objekten im n-dimensionalen - Merkmalsraum bestimmt. Voraussetzung für die Verwendung von Distanzmaßen ist das Vorliegen intervallskalierter Daten. Die Anwendung von Distanzmaßen ist neben der Clusteranalyse auch in vielen anderen Bereichen der Datenanalyse sinnvoll, so bei Skalierungsverfahren und hier insbesondere bei multidimensionalen Skalierungsverfahren und bei der Diskriminanzanalyse (z.B. Mahalanobis-Distanz).
Die beiden am meisten verwendeten Distanzmaße sind Sonderfälle der zur größeren Familie der als Minkowski-Metrik bezeichneten zählenden Distanzmaße in der allgemeinen Form:
{{image url="cluster.png" title="Clusteranalyse-Formel"}}
Dabei bezeichnet d die Distanz zwischen den Punkten j und k bei Beachtung des Minkowski-Parameters r; xja und xka sind die Koordinatenwerte des Objekts j(k) auf den Achsen a(a = 1,2, ... , m) und r ist der Metrik-Parameter (1 > r > 0). Daraus lassen sich die beiden am meisten verwendeten Distanzmaße, die Euklidische Distanz und die City-Block Distanz ableiten.
=====City-Block-Distanz(Manhattan)=====
Setzt man in die Minkowski-Metrik für r = 1 ein, ergibt sich die City-Block-Distanz:
{{image url="manhattan2.png" title="City-Block-Distanz-Formel"}}
Die Bezeichnung City-Block-Distanz ist aus dem Bild rechteckig angelegter Straßenzüge abgeleitet, in denen die Entfernung von einem Punkt zum anderen nicht durch die in Form der Luftlinie angegebene kürzeste Distanz zwischen zwei Punkten, sondern nur durch Entlangfahren an den Straßenzügen zurückgelegt werden kann. Im angelsächsischen Sprachraum spricht man deshalb auch von der Manhattan-Distanz bzw. der Taxifahrer-Distanz (taxicab metric).
=====Euklidische Distanz=====
Setzt man in die Minkowski-Metrik für r = 2 ein, ergibt sich die Euklid-Distanz:
{{image url="euklidisch.png" title="Euklidische Distanz-Formel"}}
wobei xja und xka die Projektionen der Punkte j und k auf die Dimension a(a = 1,2, ..., m) darstellen. Durch die Euklidische Distanz wird die kürzeste Distanz zwischen zwei Objekten angegeben.
=====Euklidische u. City-Block-Distanz im Vergleich=====
{{image url="manhattan.png" title="Euklidische und City-Block-Distanz im Vergleich"}}
======Ähnlichkeitskoeffizienten======
=====Ähnlichkeitskoeffizienten im Vergleich=====
{{image url="ak1.png" title="Ähnlichkeitskoeffizienten im Vergleich"}}
=====Einteilung der Objekte=====
{{image url="ak2.png" title="Einteilung der Objekte"}}
=====Einfaches Beispiel=====
====Rohdaten====
{{image url="ak3_2.png" title="Einfaches Beispiel: Rohdaten"}}
====Berechnung====
{{image url="ak4.png" title="Ähnlichkeitskoeffizientsberechnung"}}
=====Großes Beispiel=====
====Rohdaten====
{{image url="ak5.png" title="Großes Beispiel"}}
====Ergebnis Tanimoto/Jaccard====
{{image url="ak6.png" title="Beispiel Ergebnis Tanimoto/Jaccard"}}
======Levenshtein-Distanz======
- minimale Anzahl von Einfüge-, Lösch- und Ersetz-Operationen, um die erste Zeichenkette in die zweite umzuwandeln
- benannt ist die Distanz nach dem russischen Wissenschaftler Wladimir Lewenstein (engl. Levenshtein), der sie 1965 einführte
- mathematisch ist die Levenshtein-Distanz eine Metrik auf dem Raum der Symbolsequenzen
-
=====Einfache Beispiele=====
{{image url="ld1.png" title="2 einfache Beispiele"}}
=====Berechnung=====
{{image url="ld2.png" title="Raster für Levenshtein-Tabelle"}}
{{image url="ld3.png" title="Fertige Levenshtein-Tabelle"}}
=====Levenshtein-Distanz in C# umgesetzt=====
{{image url="ld4.png" title="Levenshtein-Distanz in C#"}}
=====Eigenes Programm zum Vergleich von beliebig vielen Wörtern miteinander=====
{{image url="ld5.png" title="Tabelle der Levenshtein-Distanzen der genannten Wörter" width="1550"}}
**{{color text="Tutor:" c="#00386a"}}**
Jordan Zapf
**{{color text="Ziel des Tutoriums:" c="#00386a"}}**
- Aufbau von Grundverständnis für Distanzmaße
- Vergleich von verschiedenen Ähnlichkeitskoeffizienten
- Programmierung der Levenshtein-Distanz
**{{color text="Adressaten des Lehrangebotes:" c="#00386a"}}**
Interessierte Studenten der Fakultät Informatik
**{{color text="Teilnahme:" c="#00386a"}}**
Wird durch Rundmail bekannt gegeben.
**{{color text="Veranstaltungsinhalte:" c="#00386a"}}**
======Distanzmaße======
Ähnlichkeitsmaße/ Distanzmaße werden im Rahmen der Datenanalyse (z.B. Clusteranalyse; Multidimensionale Skalierung) zur Bestimmung der Beziehungen zwischen Messobjekten eingesetzt. Dabei werden durch Vergleiche von metrisch skalierten Ausgangsdaten (Skalenniveau) die zwischen Objekten bestehenden Ähnlichkeiten gemessen. Ist die Distanz gering, dann ist die Ähnlichkeit groß; entsprechend sind sich Objekte bei großer Distanz sehr unähnlich.
=====Clusteranalyse=====
Oberbegriff für einen Typ der in der multivariaten Analyse und vor allem in der Clusteranalyse verwendeten Proximitätsmaße, mit denen im Gegensatz zu den Ähnlichkeitsmaßen und den - Korrelationsmaßen die Entfernungsbeziehung zwischen Meßobjekten bestimmt wird. Durch sie wird die Entfernung zwischen Objekten im n-dimensionalen - Merkmalsraum bestimmt. Voraussetzung für die Verwendung von Distanzmaßen ist das Vorliegen intervallskalierter Daten. Die Anwendung von Distanzmaßen ist neben der Clusteranalyse auch in vielen anderen Bereichen der Datenanalyse sinnvoll, so bei Skalierungsverfahren und hier insbesondere bei multidimensionalen Skalierungsverfahren und bei der Diskriminanzanalyse (z.B. Mahalanobis-Distanz).
Die beiden am meisten verwendeten Distanzmaße sind Sonderfälle der zur größeren Familie der als Minkowski-Metrik bezeichneten zählenden Distanzmaße in der allgemeinen Form:
{{image url="cluster.png" title="Clusteranalyse-Formel"}}
Dabei bezeichnet d die Distanz zwischen den Punkten j und k bei Beachtung des Minkowski-Parameters r; xja und xka sind die Koordinatenwerte des Objekts j(k) auf den Achsen a(a = 1,2, ... , m) und r ist der Metrik-Parameter (1 > r > 0). Daraus lassen sich die beiden am meisten verwendeten Distanzmaße, die Euklidische Distanz und die City-Block Distanz ableiten.
=====City-Block-Distanz(Manhattan)=====
Setzt man in die Minkowski-Metrik für r = 1 ein, ergibt sich die City-Block-Distanz:
{{image url="manhattan2.png" title="City-Block-Distanz-Formel"}}
Die Bezeichnung City-Block-Distanz ist aus dem Bild rechteckig angelegter Straßenzüge abgeleitet, in denen die Entfernung von einem Punkt zum anderen nicht durch die in Form der Luftlinie angegebene kürzeste Distanz zwischen zwei Punkten, sondern nur durch Entlangfahren an den Straßenzügen zurückgelegt werden kann. Im angelsächsischen Sprachraum spricht man deshalb auch von der Manhattan-Distanz bzw. der Taxifahrer-Distanz (taxicab metric).
=====Euklidische Distanz=====
Setzt man in die Minkowski-Metrik für r = 2 ein, ergibt sich die Euklid-Distanz:
{{image url="euklidisch.png" title="Euklidische Distanz-Formel"}}
wobei xja und xka die Projektionen der Punkte j und k auf die Dimension a(a = 1,2, ..., m) darstellen. Durch die Euklidische Distanz wird die kürzeste Distanz zwischen zwei Objekten angegeben.
=====Euklidische u. City-Block-Distanz im Vergleich=====
{{image url="manhattan.png" title="Euklidische und City-Block-Distanz im Vergleich"}}
======Ähnlichkeitskoeffizienten======
=====Ähnlichkeitskoeffizienten im Vergleich=====
{{image url="ak1.png" title="Ähnlichkeitskoeffizienten im Vergleich"}}
=====Einteilung der Objekte=====
{{image url="ak2.png" title="Einteilung der Objekte"}}
=====Einfaches Beispiel=====
====Rohdaten====
{{image url="ak3_2.png" title="Einfaches Beispiel: Rohdaten"}}
====Berechnung====
{{image url="ak4.png" title="Ähnlichkeitskoeffizientsberechnung"}}
=====Großes Beispiel=====
====Rohdaten====
{{image url="ak5.png" title="Großes Beispiel"}}
====Ergebnis Tanimoto/Jaccard====
{{image url="ak6.png" title="Beispiel Ergebnis Tanimoto/Jaccard"}}
======Levenshtein-Distanz======
- minimale Anzahl von Einfüge-, Lösch- und Ersetz-Operationen, um die erste Zeichenkette in die zweite umzuwandeln
- benannt ist die Distanz nach dem russischen Wissenschaftler Wladimir Lewenstein (engl. Levenshtein), der sie 1965 einführte
- mathematisch ist die Levenshtein-Distanz eine Metrik auf dem Raum der Symbolsequenzen
-
=====Einfache Beispiele=====
{{image url="ld1.png" title="2 einfache Beispiele"}}
=====Berechnung=====
{{image url="ld2.png" title="Raster für Levenshtein-Tabelle"}}
{{image url="ld3.png" title="Fertige Levenshtein-Tabelle"}}
=====Levenshtein-Distanz in C# umgesetzt=====
{{image url="ld4.png" title="Levenshtein-Distanz in C#"}}
=====Eigenes Programm zum Vergleich von beliebig vielen Wörtern miteinander=====
{{image url="ld5.png" title="Tabelle der Levenshtein-Distanzen der genannten Wörter" width="1550"}}
Deletions:
CategoryDelete
Additions:
----
CategoryDelete
CategoryDelete
Deletions:
**{{color text="1. Tutoren:" c="#00386a"}}**
Jordan Zapf
**{{color text="2. Ziel des Tutoriums:" c="#00386a"}}**
- Aufbau von Grundverständnis für Distanzmaße
- Vergleich von verschiedenen Ähnlichkeitskoeffizienten
- Programmierung der Levenshtein-Distanz
**{{color text="3. Adressaten des Lehrangebotes:" c="#00386a"}}**
Interessierte Studenten der Fakultät Informatik
**{{color text="4. Teilnahme:" c="#00386a"}}**
Wird durch Rundmail bekannt gegeben.
**{{color text="5. Veranstaltungsinhalte:" c="#00386a"}}**
======Distanzmaße======
Ähnlichkeitsmaße/ Distanzmaße werden im Rahmen der Datenanalyse (z.B. Clusteranalyse; Multidimensionale Skalierung) zur Bestimmung der Beziehungen zwischen Messobjekten eingesetzt. Dabei werden durch Vergleiche von metrisch skalierten Ausgangsdaten (Skalenniveau) die zwischen Objekten bestehenden Ähnlichkeiten gemessen. Ist die Distanz gering, dann ist die Ähnlichkeit groß; entsprechend sind sich Objekte bei großer Distanz sehr unähnlich.
=====Clusteranalyse=====
Oberbegriff für einen Typ der in der multivariaten Analyse und vor allem in der Clusteranalyse verwendeten Proximitätsmaße, mit denen im Gegensatz zu den Ähnlichkeitsmaßen und den - Korrelationsmaßen die Entfernungsbeziehung zwischen Meßobjekten bestimmt wird. Durch sie wird die Entfernung zwischen Objekten im n-dimensionalen - Merkmalsraum bestimmt. Voraussetzung für die Verwendung von Distanzmaßen ist das Vorliegen intervallskalierter Daten. Die Anwendung von Distanzmaßen ist neben der Clusteranalyse auch in vielen anderen Bereichen der Datenanalyse sinnvoll, so bei Skalierungsverfahren und hier insbesondere bei multidimensionalen Skalierungsverfahren und bei der Diskriminanzanalyse (z.B. Mahalanobis-Distanz).
Die beiden am meisten verwendeten Distanzmaße sind Sonderfälle der zur größeren Familie der als Minkowski-Metrik bezeichneten zählenden Distanzmaße in der allgemeinen Form:
{{image url="cluster.png" title="Clusteranalyse-Formel"}}
Dabei bezeichnet d die Distanz zwischen den Punkten j und k bei Beachtung des Minkowski-Parameters r; xja und xka sind die Koordinatenwerte des Objekts j(k) auf den Achsen a(a = 1,2, ... , m) und r ist der Metrik-Parameter (1 > r > 0). Daraus lassen sich die beiden am meisten verwendeten Distanzmaße, die Euklidische Distanz und die City-Block Distanz ableiten.
=====City-Block-Distanz(Manhattan)=====
Setzt man in die Minkowski-Metrik für r = 1 ein, ergibt sich die City-Block-Distanz:
{{image url="manhattan2.png" title="City-Block-Distanz-Formel"}}
Die Bezeichnung City-Block-Distanz ist aus dem Bild rechteckig angelegter Straßenzüge abgeleitet, in denen die Entfernung von einem Punkt zum anderen nicht durch die in Form der Luftlinie angegebene kürzeste Distanz zwischen zwei Punkten, sondern nur durch Entlangfahren an den Straßenzügen zurückgelegt werden kann. Im angelsächsischen Sprachraum spricht man deshalb auch von der Manhattan-Distanz bzw. der Taxifahrer-Distanz (taxicab metric).
=====Euklidische Distanz=====
Setzt man in die Minkowski-Metrik für r = 2 ein, ergibt sich die Euklid-Distanz:
{{image url="euklidisch.png" title="Euklidische Distanz-Formel"}}
wobei xja und xka die Projektionen der Punkte j und k auf die Dimension a(a = 1,2, ..., m) darstellen. Durch die Euklidische Distanz wird die kürzeste Distanz zwischen zwei Objekten angegeben.
=====Euklidische u. City-Block-Distanz im Vergleich=====
{{image url="manhattan.png" title="Euklidische und City-Block-Distanz im Vergleich"}}
======Ähnlichkeitskoeffizienten======
=====Ähnlichkeitskoeffizienten im Vergleich=====
{{image url="ak1.png" title="Ähnlichkeitskoeffizienten im Vergleich"}}
=====Einteilung der Objekte=====
{{image url="ak2.png" title="Einteilung der Objekte"}}
=====Einfaches Beispiel=====
====Rohdaten====
{{image url="ak3_2.png" title="Einfaches Beispiel: Rohdaten"}}
====Berechnung====
{{image url="ak4.png" title="Ähnlichkeitskoeffizientsberechnung"}}
=====Großes Beispiel=====
====Rohdaten====
{{image url="ak5.png" title="Großes Beispiel"}}
====Ergebnis Tanimoto/Jaccard====
{{image url="ak6.png" title="Beispiel Ergebnis Tanimoto/Jaccard"}}
======Levenshtein-Distanz======
- minimale Anzahl von Einfüge-, Lösch- und Ersetz-Operationen, um die erste Zeichenkette in die zweite umzuwandeln
- benannt ist die Distanz nach dem russischen Wissenschaftler Wladimir Lewenstein (engl. Levenshtein), der sie 1965 einführte
- mathematisch ist die Levenshtein-Distanz eine Metrik auf dem Raum der Symbolsequenzen
=====Einfache Beispiele=====
{{image url="ld1.png" title="2 einfache Beispiele"}}
=====Berechnung=====
{{image url="ld2.png" title="Raster für Levenshtein-Tabelle"}}
{{image url="ld3.png" title="Fertige Levenshtein-Tabelle"}}
=====Levenshtein-Distanz in C# umgesetzt=====
{{image url="ld4.png" title="Levenshtein-Distanz in C#"}}
=====Eigenes Programm zum Vergleich von beliebig vielen Wörtern miteinander=====
{{image url="ld5.png" title="Tabelle der Levenshtein-Distanzen der genannten Wörter" width="1550"}}
Additions:
{{image url="ak3_2.png" title="Einfaches Beispiel: Rohdaten"}}
- minimale Anzahl von Einfüge-, Lösch- und Ersetz-Operationen, um die erste Zeichenkette in die zweite umzuwandeln
- benannt ist die Distanz nach dem russischen Wissenschaftler Wladimir Lewenstein (engl. Levenshtein), der sie 1965 einführte
- mathematisch ist die Levenshtein-Distanz eine Metrik auf dem Raum der Symbolsequenzen
=====Einfache Beispiele=====
{{image url="ld1.png" title="2 einfache Beispiele"}}
=====Berechnung=====
{{image url="ld2.png" title="Raster für Levenshtein-Tabelle"}}
{{image url="ld3.png" title="Fertige Levenshtein-Tabelle"}}
=====Levenshtein-Distanz in C# umgesetzt=====
{{image url="ld4.png" title="Levenshtein-Distanz in C#"}}
=====Eigenes Programm zum Vergleich von beliebig vielen Wörtern miteinander=====
{{image url="ld5.png" title="Tabelle der Levenshtein-Distanzen der genannten Wörter" width="1550"}}
- minimale Anzahl von Einfüge-, Lösch- und Ersetz-Operationen, um die erste Zeichenkette in die zweite umzuwandeln
- benannt ist die Distanz nach dem russischen Wissenschaftler Wladimir Lewenstein (engl. Levenshtein), der sie 1965 einführte
- mathematisch ist die Levenshtein-Distanz eine Metrik auf dem Raum der Symbolsequenzen
=====Einfache Beispiele=====
{{image url="ld1.png" title="2 einfache Beispiele"}}
=====Berechnung=====
{{image url="ld2.png" title="Raster für Levenshtein-Tabelle"}}
{{image url="ld3.png" title="Fertige Levenshtein-Tabelle"}}
=====Levenshtein-Distanz in C# umgesetzt=====
{{image url="ld4.png" title="Levenshtein-Distanz in C#"}}
=====Eigenes Programm zum Vergleich von beliebig vielen Wörtern miteinander=====
{{image url="ld5.png" title="Tabelle der Levenshtein-Distanzen der genannten Wörter" width="1550"}}
Deletions:
{{files}}
Additions:
======Ähnlichkeitskoeffizienten======
=====Ähnlichkeitskoeffizienten im Vergleich=====
{{image url="ak1.png" title="Ähnlichkeitskoeffizienten im Vergleich"}}
=====Einteilung der Objekte=====
{{image url="ak2.png" title="Einteilung der Objekte"}}
=====Einfaches Beispiel=====
====Rohdaten====
{{image url="ak3.png" title="Einfaches Beispiel: Rohdaten"}}
====Berechnung====
{{image url="ak4.png" title="Ähnlichkeitskoeffizientsberechnung"}}
=====Großes Beispiel=====
====Rohdaten====
{{image url="ak5.png" title="Großes Beispiel"}}
====Ergebnis Tanimoto/Jaccard====
{{image url="ak6.png" title="Beispiel Ergebnis Tanimoto/Jaccard"}}
======Levenshtein-Distanz======
{{files}}
=====Ähnlichkeitskoeffizienten im Vergleich=====
{{image url="ak1.png" title="Ähnlichkeitskoeffizienten im Vergleich"}}
=====Einteilung der Objekte=====
{{image url="ak2.png" title="Einteilung der Objekte"}}
=====Einfaches Beispiel=====
====Rohdaten====
{{image url="ak3.png" title="Einfaches Beispiel: Rohdaten"}}
====Berechnung====
{{image url="ak4.png" title="Ähnlichkeitskoeffizientsberechnung"}}
=====Großes Beispiel=====
====Rohdaten====
{{image url="ak5.png" title="Großes Beispiel"}}
====Ergebnis Tanimoto/Jaccard====
{{image url="ak6.png" title="Beispiel Ergebnis Tanimoto/Jaccard"}}
======Levenshtein-Distanz======
{{files}}
Deletions:
Additions:
======Distanzmaße======
Ähnlichkeitsmaße/ Distanzmaße werden im Rahmen der Datenanalyse (z.B. Clusteranalyse; Multidimensionale Skalierung) zur Bestimmung der Beziehungen zwischen Messobjekten eingesetzt. Dabei werden durch Vergleiche von metrisch skalierten Ausgangsdaten (Skalenniveau) die zwischen Objekten bestehenden Ähnlichkeiten gemessen. Ist die Distanz gering, dann ist die Ähnlichkeit groß; entsprechend sind sich Objekte bei großer Distanz sehr unähnlich.
=====Clusteranalyse=====
Oberbegriff für einen Typ der in der multivariaten Analyse und vor allem in der Clusteranalyse verwendeten Proximitätsmaße, mit denen im Gegensatz zu den Ähnlichkeitsmaßen und den - Korrelationsmaßen die Entfernungsbeziehung zwischen Meßobjekten bestimmt wird. Durch sie wird die Entfernung zwischen Objekten im n-dimensionalen - Merkmalsraum bestimmt. Voraussetzung für die Verwendung von Distanzmaßen ist das Vorliegen intervallskalierter Daten. Die Anwendung von Distanzmaßen ist neben der Clusteranalyse auch in vielen anderen Bereichen der Datenanalyse sinnvoll, so bei Skalierungsverfahren und hier insbesondere bei multidimensionalen Skalierungsverfahren und bei der Diskriminanzanalyse (z.B. Mahalanobis-Distanz).
Die beiden am meisten verwendeten Distanzmaße sind Sonderfälle der zur größeren Familie der als Minkowski-Metrik bezeichneten zählenden Distanzmaße in der allgemeinen Form:
{{image url="cluster.png" title="Clusteranalyse-Formel"}}
Dabei bezeichnet d die Distanz zwischen den Punkten j und k bei Beachtung des Minkowski-Parameters r; xja und xka sind die Koordinatenwerte des Objekts j(k) auf den Achsen a(a = 1,2, ... , m) und r ist der Metrik-Parameter (1 > r > 0). Daraus lassen sich die beiden am meisten verwendeten Distanzmaße, die Euklidische Distanz und die City-Block Distanz ableiten.
=====City-Block-Distanz(Manhattan)=====
Setzt man in die Minkowski-Metrik für r = 1 ein, ergibt sich die City-Block-Distanz:
{{image url="manhattan2.png" title="City-Block-Distanz-Formel"}}
Die Bezeichnung City-Block-Distanz ist aus dem Bild rechteckig angelegter Straßenzüge abgeleitet, in denen die Entfernung von einem Punkt zum anderen nicht durch die in Form der Luftlinie angegebene kürzeste Distanz zwischen zwei Punkten, sondern nur durch Entlangfahren an den Straßenzügen zurückgelegt werden kann. Im angelsächsischen Sprachraum spricht man deshalb auch von der Manhattan-Distanz bzw. der Taxifahrer-Distanz (taxicab metric).
=====Euklidische Distanz=====
Setzt man in die Minkowski-Metrik für r = 2 ein, ergibt sich die Euklid-Distanz:
{{image url="euklidisch.png" title="Euklidische Distanz-Formel"}}
wobei xja und xka die Projektionen der Punkte j und k auf die Dimension a(a = 1,2, ..., m) darstellen. Durch die Euklidische Distanz wird die kürzeste Distanz zwischen zwei Objekten angegeben.
=====Euklidische u. City-Block-Distanz im Vergleich=====
{{image url="manhattan.png" title="Euklidische und City-Block-Distanz im Vergleich"}}
Ähnlichkeitsmaße/ Distanzmaße werden im Rahmen der Datenanalyse (z.B. Clusteranalyse; Multidimensionale Skalierung) zur Bestimmung der Beziehungen zwischen Messobjekten eingesetzt. Dabei werden durch Vergleiche von metrisch skalierten Ausgangsdaten (Skalenniveau) die zwischen Objekten bestehenden Ähnlichkeiten gemessen. Ist die Distanz gering, dann ist die Ähnlichkeit groß; entsprechend sind sich Objekte bei großer Distanz sehr unähnlich.
=====Clusteranalyse=====
Oberbegriff für einen Typ der in der multivariaten Analyse und vor allem in der Clusteranalyse verwendeten Proximitätsmaße, mit denen im Gegensatz zu den Ähnlichkeitsmaßen und den - Korrelationsmaßen die Entfernungsbeziehung zwischen Meßobjekten bestimmt wird. Durch sie wird die Entfernung zwischen Objekten im n-dimensionalen - Merkmalsraum bestimmt. Voraussetzung für die Verwendung von Distanzmaßen ist das Vorliegen intervallskalierter Daten. Die Anwendung von Distanzmaßen ist neben der Clusteranalyse auch in vielen anderen Bereichen der Datenanalyse sinnvoll, so bei Skalierungsverfahren und hier insbesondere bei multidimensionalen Skalierungsverfahren und bei der Diskriminanzanalyse (z.B. Mahalanobis-Distanz).
Die beiden am meisten verwendeten Distanzmaße sind Sonderfälle der zur größeren Familie der als Minkowski-Metrik bezeichneten zählenden Distanzmaße in der allgemeinen Form:
{{image url="cluster.png" title="Clusteranalyse-Formel"}}
Dabei bezeichnet d die Distanz zwischen den Punkten j und k bei Beachtung des Minkowski-Parameters r; xja und xka sind die Koordinatenwerte des Objekts j(k) auf den Achsen a(a = 1,2, ... , m) und r ist der Metrik-Parameter (1 > r > 0). Daraus lassen sich die beiden am meisten verwendeten Distanzmaße, die Euklidische Distanz und die City-Block Distanz ableiten.
=====City-Block-Distanz(Manhattan)=====
Setzt man in die Minkowski-Metrik für r = 1 ein, ergibt sich die City-Block-Distanz:
{{image url="manhattan2.png" title="City-Block-Distanz-Formel"}}
Die Bezeichnung City-Block-Distanz ist aus dem Bild rechteckig angelegter Straßenzüge abgeleitet, in denen die Entfernung von einem Punkt zum anderen nicht durch die in Form der Luftlinie angegebene kürzeste Distanz zwischen zwei Punkten, sondern nur durch Entlangfahren an den Straßenzügen zurückgelegt werden kann. Im angelsächsischen Sprachraum spricht man deshalb auch von der Manhattan-Distanz bzw. der Taxifahrer-Distanz (taxicab metric).
=====Euklidische Distanz=====
Setzt man in die Minkowski-Metrik für r = 2 ein, ergibt sich die Euklid-Distanz:
{{image url="euklidisch.png" title="Euklidische Distanz-Formel"}}
wobei xja und xka die Projektionen der Punkte j und k auf die Dimension a(a = 1,2, ..., m) darstellen. Durch die Euklidische Distanz wird die kürzeste Distanz zwischen zwei Objekten angegeben.
=====Euklidische u. City-Block-Distanz im Vergleich=====
{{image url="manhattan.png" title="Euklidische und City-Block-Distanz im Vergleich"}}
Deletions:
Euklidische Distanz
Ähnlichkeitskoeffizienten
Levenshtein-Distanz.
**{{color text="6. Aufgaben:" c="#00386a"}} **
Auswertung verschiedener Ähnlichkeitskoeffizienten
Programmierung eines Levenshtein-Distanz-Programms in C#
{{files}}
Additions:
{{files}}
Additions:
{{image url="url" title="text" alt="text"}}
- Aufbau von Grundverständnis für Distanzmaße
- Vergleich von verschiedenen Ähnlichkeitskoeffizienten
- Programmierung der Levenshtein-Distanz
Interessierte Studenten der Fakultät Informatik
Wird durch Rundmail bekannt gegeben.
**{{color text="5. Veranstaltungsinhalte:" c="#00386a"}}**
City-Block-Distanz
Euklidische Distanz
Ähnlichkeitskoeffizienten
Levenshtein-Distanz.
**{{color text="6. Aufgaben:" c="#00386a"}} **
Auswertung verschiedener Ähnlichkeitskoeffizienten
Programmierung eines Levenshtein-Distanz-Programms in C#
- Aufbau von Grundverständnis für Distanzmaße
- Vergleich von verschiedenen Ähnlichkeitskoeffizienten
- Programmierung der Levenshtein-Distanz
Interessierte Studenten der Fakultät Informatik
Wird durch Rundmail bekannt gegeben.
**{{color text="5. Veranstaltungsinhalte:" c="#00386a"}}**
City-Block-Distanz
Euklidische Distanz
Ähnlichkeitskoeffizienten
Levenshtein-Distanz.
**{{color text="6. Aufgaben:" c="#00386a"}} **
Auswertung verschiedener Ähnlichkeitskoeffizienten
Programmierung eines Levenshtein-Distanz-Programms in C#
Deletions:
**{{color text="6. Veranstaltungsinhalte:" c="#00386a"}}**
**{{color text="7. Literaturhinweise:" c="#00386a"}} **
**{{color text="8. Aufgaben:" c="#00386a"}} **
Deletions:
CategoryInfoTutorien
Additions:
Jordan Zapf