Revision history for TutoriumDokumentwortanalyseHaeufigkeitsanalyseSS18
Additions:
----
CategoryTutorienFKITSS18
CategoryTutorienFKITSS18
Additions:
- **Mit Bag of Words erstellt man zunächst ein Vokabular aus allen Wörtern des Dokuments / der Dokumente.
- Jedes individuelle Wort kommt nur einmal im Vokabular vor, egal wie oft es zunächst verwendet wird.**
- **Durch Zählung wird summiert, welche Wörter wieoft im Dokument / in den Dokumenten vorkommen. **
- **Mit n - grams (n - Grammen) lassen sich Wortpaare bilden. Wortpaare sind aneinander stehende Wörter. **
- **Durch Filterung des Vokabulars werden unnötige Satzzeichen und unwichtige / nicht relevante Wörter entfernt. **
- In diesem Beispiel wird gezeigt, wie ein PDF Dokument eingelesen und ein Bag of Words erstellt werden kann.
- Dieser Bag kann in einer Wordcloud grafisch dargestellt werden.
- In dieser Wordcloud werden die am häufigsten verwendeten Wörter und (jetzt noch) Zeichen dargestellt.
- Die Farbe und Größe repräsentiert die jeweilige Anzahl.
{{image url="Bild1.png" title="Codeausschnitt 1: ungefilterter Text" alt="text"}}
{{image url="Bild2.png" title="Abbildung 1: ungefilterter Text Wordcloud" alt="text"}}
=====Gefilterter Text=====
- In diesem Beispiel wird das Vokabular gefiltert.
- Die Punktuationen werden entfernt.
- Alle Wörter werden klein geschrieben.
- Stopworte werden entfernt.
- Alle Wörter, die kleiner gleich drei Buchstaben enthalten, werden entfernt.
- Durch eine Funktion lassen sich die am meist vorkommenden Worte in einer Variable speichern und in der Konsole ausgeben lassen.
{{image url="Bild3.png" title="Codeausschnitt 2: gefilterter Text 1" alt="text"}}
{{image url="Bild4.png" title="Codeausschnitt 3: gefilterter Text 2" alt="text"}}
{{image url="Bild5.png" title="Codeausschnitt 4: gefilterter Text 3" alt="text"}}
{{image url="Bild6.png" title="Abbildung 2: gefilterter Text Wordcloud" alt="text"}}
{{image url="Bild7.png" title="Codeausschnitt 5: TopWords" alt="text"}}
{{image url="Bild8.png" title="Ausgabe 1: TopWords" alt="text"}}
=====N-gram-Beispiel=====
- Hier werden n - Gramme erstellt und Grafisch ausgegeben.
{{image url="Bild9.png" title="Codeausschnitt 6: n-gram" alt="text"}}
{{image url="Bild11.png" title="Abbbildung 3: nGramCloud" alt="text"}}
- Jedes individuelle Wort kommt nur einmal im Vokabular vor, egal wie oft es zunächst verwendet wird.**
- **Durch Zählung wird summiert, welche Wörter wieoft im Dokument / in den Dokumenten vorkommen. **
- **Mit n - grams (n - Grammen) lassen sich Wortpaare bilden. Wortpaare sind aneinander stehende Wörter. **
- **Durch Filterung des Vokabulars werden unnötige Satzzeichen und unwichtige / nicht relevante Wörter entfernt. **
- In diesem Beispiel wird gezeigt, wie ein PDF Dokument eingelesen und ein Bag of Words erstellt werden kann.
- Dieser Bag kann in einer Wordcloud grafisch dargestellt werden.
- In dieser Wordcloud werden die am häufigsten verwendeten Wörter und (jetzt noch) Zeichen dargestellt.
- Die Farbe und Größe repräsentiert die jeweilige Anzahl.
{{image url="Bild1.png" title="Codeausschnitt 1: ungefilterter Text" alt="text"}}
{{image url="Bild2.png" title="Abbildung 1: ungefilterter Text Wordcloud" alt="text"}}
=====Gefilterter Text=====
- In diesem Beispiel wird das Vokabular gefiltert.
- Die Punktuationen werden entfernt.
- Alle Wörter werden klein geschrieben.
- Stopworte werden entfernt.
- Alle Wörter, die kleiner gleich drei Buchstaben enthalten, werden entfernt.
- Durch eine Funktion lassen sich die am meist vorkommenden Worte in einer Variable speichern und in der Konsole ausgeben lassen.
{{image url="Bild3.png" title="Codeausschnitt 2: gefilterter Text 1" alt="text"}}
{{image url="Bild4.png" title="Codeausschnitt 3: gefilterter Text 2" alt="text"}}
{{image url="Bild5.png" title="Codeausschnitt 4: gefilterter Text 3" alt="text"}}
{{image url="Bild6.png" title="Abbildung 2: gefilterter Text Wordcloud" alt="text"}}
{{image url="Bild7.png" title="Codeausschnitt 5: TopWords" alt="text"}}
{{image url="Bild8.png" title="Ausgabe 1: TopWords" alt="text"}}
=====N-gram-Beispiel=====
- Hier werden n - Gramme erstellt und Grafisch ausgegeben.
{{image url="Bild9.png" title="Codeausschnitt 6: n-gram" alt="text"}}
{{image url="Bild11.png" title="Abbbildung 3: nGramCloud" alt="text"}}
Deletions:
=====Präsenz der Worte=====
- „Mobile“ = 1, „Computing“ = 1, „beschäftigt“ = 0, „sich“ = 0, „mit“ = 0, „Applications“ = 0, „gehört“ = 1, „zu“ = 1, „Informatik“ = 1, „Programmieren“ = 0
- isVoc = [1, 1, 0, 0, 0, 1, 1, 1, 0]
{{image url="url" title="text" alt="text"}}
{{files}}
Additions:
=====Bag of Words=====
{{files}}
{{files}}
Deletions:
Additions:
======Worthäufigkeiten mit Bag of Words======
----
======Theorie ======
=====Sinn der Worthäufigkeitsanalyse=====
- Klassifizierung von Dokumenten
- Dokumente in Kategorien einteilen
- Schwerpunkte herausfinden
=====Bag of Words (BoW)=====
- Methode zur Merkmalsextraktion
- relativ einfaches Konzept
- Auflistung und Zählung auftretender Wörter in einem Dokument
- Erstellung des Vokabulars
- Vektoren erstellen
- Grammatik analysieren
=====Vokabular erstellen=====
- „Mobile Computing beschäftigt sich mit mobile Applications.“
- „Mobile Computing gehört zu Informatik.“
- „Informatik beschäftigt sich mit Programmieren.“
- -> voc = {„Mobile“,
„Computing“,
„beschäftigt“,
„sich“,
„mit“,
„Applications“,
„gehört“,
„zu“,
„Informatik“,
„Programmieren“}
=====Präsenz der Worte=====
- „Mobile Computing gehört zu Informatik.“
- „Mobile“ = 1, „Computing“ = 1, „beschäftigt“ = 0, „sich“ = 0, „mit“ = 0, „Applications“ = 0, „gehört“ = 1, „zu“ = 1, „Informatik“ = 1, „Programmieren“ = 0
- isVoc = [1, 1, 0, 0, 0, 1, 1, 1, 0]
=====Anzahl der Worte=====
- „Mobile Computing beschäftigt sich mit mobile Applications.“
- „Mobile Computing gehört zu Informatik.“
- „Informatik beschäftigt sich mit Programmieren.“
- voc = {„Mobile“:3, „Computing“:2, „beschäftigt“:2, „sich“:2, „mit“:2, „Applications“:1, „gehört“:1, „zu“:1, „Informatik“:2, „Programmieren“:1};
=====n – gram – Modell=====
- dient zur Kontextgewinnung (BoW zunächst kontextlose Aufzählung)
- Bigram: „Mobile Computing“, „Computing beschäftigt“, „beschäftigt sich“
- Trigram: „Mobile Computing beschäftigt“, „Computing beschäftigt sich“
- Generell: n-gram
=====n – gram – Modell Beispiel=====
- „Mobile Computing beschäftigt sich mit mobile Applications.“
- „Mobile Computing gehört zu Informatik.“
- bigram = {„Mobile Computing“:2, „Computing beschäftigt“:1, „beschäftigt sich“:1, „Computing gehört“:1, „gehört zu“:1}
- „Mobile Computing“ kommt öfters zusammen vor -> gehört zusammen (Bezeichnung bestehend aus zwei Worten)
=====Filterung des Vokabulars =====
- große/viele Dokumente -> großes Vokabular bzw. großer Vektor
- Reduzierung der Vektorgröße bspw. durch:
- ignorieren von „Stopp-Wörtern“ ('und', 'oder', 'doch', 'weil‘, 'an', 'in', 'von‘)
- Reduzierung auf Stammwort (gegangen, ging, geht -> gehen)
- Korrektur falsch geschriebener Wörter
======Bag of Words in Matlab======
- Einführung der Bag of Words Methoden: Version 2017b
- einfaches Einlesen verschiedener Dokumenttypen möglich
- Methoden zur Bereinigung der Texte bereits vorhanden
- Stopwords allerdings nur auf englisch verfügbar
- Visuelle Darstellung des „bag“ möglich
=====Ungefilterter Text=====
{{image url="url" title="text" alt="text"}}
----
======Theorie ======
=====Sinn der Worthäufigkeitsanalyse=====
- Klassifizierung von Dokumenten
- Dokumente in Kategorien einteilen
- Schwerpunkte herausfinden
=====Bag of Words (BoW)=====
- Methode zur Merkmalsextraktion
- relativ einfaches Konzept
- Auflistung und Zählung auftretender Wörter in einem Dokument
- Erstellung des Vokabulars
- Vektoren erstellen
- Grammatik analysieren
=====Vokabular erstellen=====
- „Mobile Computing beschäftigt sich mit mobile Applications.“
- „Mobile Computing gehört zu Informatik.“
- „Informatik beschäftigt sich mit Programmieren.“
- -> voc = {„Mobile“,
„Computing“,
„beschäftigt“,
„sich“,
„mit“,
„Applications“,
„gehört“,
„zu“,
„Informatik“,
„Programmieren“}
=====Präsenz der Worte=====
- „Mobile Computing gehört zu Informatik.“
- „Mobile“ = 1, „Computing“ = 1, „beschäftigt“ = 0, „sich“ = 0, „mit“ = 0, „Applications“ = 0, „gehört“ = 1, „zu“ = 1, „Informatik“ = 1, „Programmieren“ = 0
- isVoc = [1, 1, 0, 0, 0, 1, 1, 1, 0]
=====Anzahl der Worte=====
- „Mobile Computing beschäftigt sich mit mobile Applications.“
- „Mobile Computing gehört zu Informatik.“
- „Informatik beschäftigt sich mit Programmieren.“
- voc = {„Mobile“:3, „Computing“:2, „beschäftigt“:2, „sich“:2, „mit“:2, „Applications“:1, „gehört“:1, „zu“:1, „Informatik“:2, „Programmieren“:1};
=====n – gram – Modell=====
- dient zur Kontextgewinnung (BoW zunächst kontextlose Aufzählung)
- Bigram: „Mobile Computing“, „Computing beschäftigt“, „beschäftigt sich“
- Trigram: „Mobile Computing beschäftigt“, „Computing beschäftigt sich“
- Generell: n-gram
=====n – gram – Modell Beispiel=====
- „Mobile Computing beschäftigt sich mit mobile Applications.“
- „Mobile Computing gehört zu Informatik.“
- bigram = {„Mobile Computing“:2, „Computing beschäftigt“:1, „beschäftigt sich“:1, „Computing gehört“:1, „gehört zu“:1}
- „Mobile Computing“ kommt öfters zusammen vor -> gehört zusammen (Bezeichnung bestehend aus zwei Worten)
=====Filterung des Vokabulars =====
- große/viele Dokumente -> großes Vokabular bzw. großer Vektor
- Reduzierung der Vektorgröße bspw. durch:
- ignorieren von „Stopp-Wörtern“ ('und', 'oder', 'doch', 'weil‘, 'an', 'in', 'von‘)
- Reduzierung auf Stammwort (gegangen, ging, geht -> gehen)
- Korrektur falsch geschriebener Wörter
======Bag of Words in Matlab======
- Einführung der Bag of Words Methoden: Version 2017b
- einfaches Einlesen verschiedener Dokumenttypen möglich
- Methoden zur Bereinigung der Texte bereits vorhanden
- Stopwords allerdings nur auf englisch verfügbar
- Visuelle Darstellung des „bag“ möglich
=====Ungefilterter Text=====
{{image url="url" title="text" alt="text"}}
Additions:
- praktische Verwendung der Bag of Words Methode zur Klassifizierung von Dokumenten
- Theoretische Einführung in Bag of Words
- Praktische Vorstellung der Umsetzung in Matlab
- https://de.mathworks.com/help/textanalytics/ref/bagofwords.html
- Vokabularerstellung
- Zählung auftretender Wörter
- Erklärung n-gram-model
- Bereinigung der Dokumente
- praktische Umsetzung in Matlab (Voraussetzung: Matlab2017b oder höher)
- Einlesen eines Dokuments
- Bereinigung und Filterung störender Zeichen und Stopwörter
- Erstellung von n-gram-models
- Visuelle Ausgabe des "Bag of Words"
- Theoretische Einführung in Bag of Words
- Praktische Vorstellung der Umsetzung in Matlab
- https://de.mathworks.com/help/textanalytics/ref/bagofwords.html
- Vokabularerstellung
- Zählung auftretender Wörter
- Erklärung n-gram-model
- Bereinigung der Dokumente
- praktische Umsetzung in Matlab (Voraussetzung: Matlab2017b oder höher)
- Einlesen eines Dokuments
- Bereinigung und Filterung störender Zeichen und Stopwörter
- Erstellung von n-gram-models
- Visuelle Ausgabe des "Bag of Words"
Deletions:
Additions:
- Verständnisgewinnung über "Bag of Words" Methode
- Worthäufigkeitanalyse an Dokumenten durchführen
- Grundlagen der "Bag of Words" Methode
- praktische Umsetzung in Python
- Worthäufigkeitanalyse an Dokumenten durchführen
- Grundlagen der "Bag of Words" Methode
- praktische Umsetzung in Python
Deletions:
CategoryInfoTutorien
Additions:
===**{{color text="Tutorium: Dokumentwortanalyse/Häufigkeitsanalyse "c="#00386a"}}** ===
Deletions:
Additions:
----
CategoryInfoTutorien
CategoryInfoTutorien
Additions:
Sebastian Prang