Dokumentenklassifikation

Diese Seite befindet sich unter aktiver Bearbeitung.

In dieser Wikiseite werden die Kernthemen des Tutoriums "Mustererkennung / Klassifikation von Textdokumenten" vom SS18 in angepasster Form behandelt um die vermittelten Informationen für spätere Studiengänge zu erhalten.

Das Tutorium hatte zur Aufgabe, ausgewählte, meist prüfungsrelevante Inhalte der Vorlesung "Mustererkennung" anhand des praktischen Beispiels der Dokumentenstrukturanalyse zu erklären, um das Lernen zu vereinfachen.

Was ist Dokumentenklassifikation?

(image: https://ife.erdaxo.de/uploads/Dokumentenklassifikation/dk1.png)

(image: https://ife.erdaxo.de/uploads/Dokumentenklassifikation/dk2.png)

(image: https://ife.erdaxo.de/uploads/Dokumentenklassifikation/dk3.png)

(image: https://ife.erdaxo.de/uploads/Dokumentenklassifikation/dk4.png)

(image: https://ife.erdaxo.de/uploads/Dokumentenklassifikation/dk5.png)

(image: https://ife.erdaxo.de/uploads/Dokumentenklassifikation/dk6.png)

Arbeitsschritte der Dokumentenklassifikation. Quelle: Eigenes Programm, Beispieldokument: Broschüre des BAföG-Amts.

Der Ausgangspunkt der Dokumentenklassifikation ist ein normales Papierdokument. Sie hat zum Ziel, dieses Dokument zu "verstehen" und anhand dieses Verständnisses Schlussfolgerungen über Art und/oder Inhalt zu treffen.
Dieses Dokument wird in mehreren Schritten weiterverarbeitet.

Es wird in ein von einem Programm verwertbares Format gebracht (scannen des Dokuments -> Abspeichern z.B. in PNG)

Wenn der Inhalt der Datei bestimmten Kriterien nicht entspricht, wird es korrigiert (schief eingescannt, Kaffeeflecke, rauschen, zu groß/klein)

Es wird in seine Merkmale zerlegt (Strukturanalyse, ..)

Anhand der Merkmale wird das Dokument klassifiziert.

Um eine Klassifizierung vorzunehmen, muss zusätzlich noch gelernt werden. Das heißt, es werden viele Beispieldaten genommen, die bereits vorklassifiziert (gelablet) sind und anhand dieser Informationen kann ein Lernalgorithmus verschiedene Klassen erlernen und (mit einer gewissen Erfolgsquote) unterscheiden.
Ein Beispiel:
Das Programm lernt die Strukturmerkmale von 500 Beispielbriefen und 500 Beispiel-Buchseiten. Bekommt es nach diesem Training einen unbekannten Brief vorgezeigt, so ist die Wahrscheinlichkeit hoch, dass es ihn richtig erkennt.
Die Erfolgsquote ist dabei immer von der gesamten Prozesskette der Mustererkennung abhängig.

Wichtige Variablen

Um die nachfolgenden Ausführungen bestmöglich zu verstehen, eine kurze Erklärung der Variablen. Vektornotationen ( z.B. x mit Pfeil darüber) können nicht dargestellt werden und werden deshalb als x-Vektor oder Merkmalsvektor gekennzeichnet.

x -> Merkmal
k -> Klasse/ Klassenlabel
g -> Cluster/ Clusternummer
G -> Analysegebiet
S -> Stichprobe

Die Aufgaben der computergestützten Intelligenz

Zu den Aufgaben der computergestützten Intelligenz gehören folgende:

Die Klassifikation:

Die Klassifikation hat zum Ziel, dass der Merkmalsraum auf eine diskrete Menge abgebildet wird (x --> k). Im Beispiel der Dokumentenverarbeitung bedeutet es, dass beispielsweise anhand der Strukturdaten Aussagen über die Art des Dokuments getroffen werden. Also Strukturdaten --> Aussage wie "Brief" oder "Rechnung".

Das geschieht durch das überwachte Lernen. Überwacht bedeutet hierbei, dass gelabelte Daten vorliegen. Also ein Experte hat bereits im Vorfeld zu den jeweiligen Strukturdaten die Dokumentart vorgegeben. Somit haben wir Datenpaare (x, k), die dann vom Programm gelernt werden und je nach Erfolg kann dieses dann neue Daten klassifizieren.

Das Clustering:

Das Clustering ähnelt stark der Klassifikation. Die Hauptunterschiede sind, dass nicht auf ein Klassenlabel k, sondern auf eine Clusternummer g abgebildet wird und es ein unüberwachtes Lernen ist. Das bedeutet, es sind nur die Merkmalsvektoren gegeben, keine label. Gelernt wird dabei, indem auf Ähnlichkeit geprüft wird und ähnliche Daten zu einem Cluster zusammengefügt werden.

Die Regression:

Die Regression lässt sich am einfachsten durch das Beispiel der Börsenspekulation erklären. Anhand der Daten aus der Vergangenheit versucht ein Programm Prognosen für die Zukunft aufzustellen. Es werden Abhängigkeiten der Merkmale gelernt.

Die Assoziation:

Bei der Assoziation werden Daten, die eigentlich nichts direkt miteinander zutun haben auf Verbindungen überprüft. Beispielsweise der Zusammenhang zwischen Arbeiterzufriedenheit und deren Leistung. Beides sind verschiedene Merkmalsvektoren und können doch miteinander verknüpft sein.

Die Prozesskette der Mustererkennung

Signalwandlung:

Wir haben eine physikalische Größe, z.B. ein Papierdokument, und möchten daraus ein analoges Signal erzeugen. Das geschieht z.B. mithilfe von Sensoren und in unserem Fall durch einen Scanner.

Digitalisierung:

Das analoge Signal muss zu einem digitalen gewandelt werden. Dies geschieht meistens über Abtastung oder wie in unserem Fall durch Rasterisierung.

Vorverarbeitung:

In der Vorverarbeitung werden die digitalen Signale verbessert, z.B. durch Filterung, Normierung, Kodierung, etc. Am Ende der Vorverarbeitung sollen alle Daten gleich behandelbar sein. Im Falle der Dokumentenverarbeitung würden die Daten in ein Bildformat wie PNG kodiert werden, dann werden Fehler wie Kaffeeflecken oder Rauschen bereinigt und das Bild begradigt und auf eine einheitliche Größe gebracht.

Merkmalsextraktion:

Nun werden Merkmale bestimmt, die aus den Daten gezogen werden sollen. Hierbei ist es wichtig, die richtigen Merkmale zu finden, die für den jeweiligen Zweck benötigt werden. Im Falle der Dokumentenverarbeitung wäre es z.B. die Extraktion der Strukturdaten des Dokuments.

Version [90417]

Dokumentenklassifikation

Was ist Dokumentenklassifikation?

Wichtige Variablen

Die Aufgaben der computergestützten Intelligenz

Die Prozesskette der Mustererkennung

Postulate

Was ist ein Postulat?

Postulat:

Postulat:

Postulat:

Die Vorverarbeitung

Die Extraktion und Verarbeitung der Merkmale

Die Nächste-Nachbarn Klassifikation "NN" und ihre Erweiterung "k-NN"