ich war hier: TutoriumDokumentwortanalyseHaeufigkeitsanalyseSS18

Version [91601]

Dies ist eine alte Version von TutoriumDokumentwortanalyseHaeufigkeitsanalyseSS18 erstellt von SebastianPrang am 2018-10-01 13:43:32.

Tutorium: Dokumentwortanalyse/Häufigkeitsanalyse

1. Tutoren:

Sebastian Prang

2. Ziel des Tutoriums:

Verständnisgewinnung über "Bag of Words" Methode

Worthäufigkeitanalyse an Dokumenten durchführen

praktische Verwendung der Bag of Words Methode zur Klassifizierung von Dokumenten

3. Adressaten des Lehrangebotes:

4. Teilnahme:

5. Veranstaltungsdatum/-zeit/-ort:

6. Veranstaltungsinhalte:

Theoretische Einführung in Bag of Words

Praktische Vorstellung der Umsetzung in Matlab

7. Literaturhinweise:

https://de.mathworks.com/help/textanalytics/ref/bagofwords.html

8. Aufgaben:

Grundlagen der "Bag of Words" Methode

Vokabularerstellung

Zählung auftretender Wörter

Erklärung n-gram-model

Bereinigung der Dokumente

praktische Umsetzung in Matlab (Voraussetzung: Matlab2017b oder höher)

Einlesen eines Dokuments

Bereinigung und Filterung störender Zeichen und Stopwörter

Erstellung von n-gram-models

Visuelle Ausgabe des "Bag of Words"

Worthäufigkeiten mit Bag of Words

Theorie

Sinn der Worthäufigkeitsanalyse

Klassifizierung von Dokumenten

Dokumente in Kategorien einteilen

Schwerpunkte herausfinden

Bag of Words (BoW )

Methode zur Merkmalsextraktion

relativ einfaches Konzept

Auflistung und Zählung auftretender Wörter in einem Dokument

Erstellung des Vokabulars

Vektoren erstellen

Grammatik analysieren

Vokabular erstellen

„Mobile Computing beschäftigt sich mit mobile Applications.“

„Mobile Computing gehört zu Informatik.“

„Informatik beschäftigt sich mit Programmieren.“

-> voc = {„Mobile“,

„Computing“,

„beschäftigt“,

„sich“,

„mit“,

„Applications“,

„gehört“,

„zu“,

„Informatik“,

„Programmieren“}

Präsenz der Worte

„Mobile Computing gehört zu Informatik.“

„Mobile“ = 1, „Computing“ = 1, „beschäftigt“ = 0, „sich“ = 0, „mit“ = 0, „Applications“ = 0, „gehört“ = 1, „zu“ = 1, „Informatik“ = 1, „Programmieren“ = 0

isVoc = [1, 1, 0, 0, 0, 1, 1, 1, 0]

Anzahl der Worte

„Mobile Computing beschäftigt sich mit mobile Applications.“

„Mobile Computing gehört zu Informatik.“

„Informatik beschäftigt sich mit Programmieren.“

voc = {„Mobile“:3, „Computing“:2, „beschäftigt“:2, „sich“:2, „mit“:2, „Applications“:1, „gehört“:1, „zu“:1, „Informatik“:2, „Programmieren“:1};

n – gram – Modell

dient zur Kontextgewinnung (BoW zunächst kontextlose Aufzählung)

Bigram: „Mobile Computing“, „Computing beschäftigt“, „beschäftigt sich“

Trigram: „Mobile Computing beschäftigt“, „Computing beschäftigt sich“

Generell: n-gram

n – gram – Modell Beispiel

„Mobile Computing beschäftigt sich mit mobile Applications.“

„Mobile Computing gehört zu Informatik.“

bigram = {„Mobile Computing“:2, „Computing beschäftigt“:1, „beschäftigt sich“:1, „Computing gehört“:1, „gehört zu“:1}

„Mobile Computing“ kommt öfters zusammen vor -> gehört zusammen (Bezeichnung bestehend aus zwei Worten)

Filterung des Vokabulars

große/viele Dokumente -> großes Vokabular bzw. großer Vektor

Reduzierung der Vektorgröße bspw. durch:

ignorieren von „Stopp-Wörtern“ ('und', 'oder', 'doch', 'weil‘, 'an', 'in', 'von‘)

Reduzierung auf Stammwort (gegangen, ging, geht -> gehen)

Korrektur falsch geschriebener Wörter

Bag of Words in Matlab

Einführung der Bag of Words Methoden: Version 2017b

einfaches Einlesen verschiedener Dokumenttypen möglich

Methoden zur Bereinigung der Texte bereits vorhanden

Stopwords allerdings nur auf englisch verfügbar

Visuelle Darstellung des „bag“ möglich

Ungefilterter Text

text

Diese Seite wurde noch nicht kommentiert.

Valid XHTML :: Valid CSS: :: Powered by WikkaWiki