ich war hier: Dokumentenklassifikation

Version [90415]

Dies ist eine alte Version von Dokumentenklassifikation erstellt von JonasRotermund am 2018-08-17 20:14:52.

 

Dokumentenklassifikation

Attachments
File Last modified Size
BWImage2.PNG 2023-10-06 18:36 13Kb
GrayText2.PNG 2023-10-06 18:36 38Kb
a1.PNG 2023-10-06 18:36 272Kb
a2.PNG 2023-10-06 18:36 67Kb
a3.PNG 2023-10-06 18:36 62Kb
a4.PNG 2023-10-06 18:36 33Kb
a5.PNG 2023-10-06 18:36 129Kb
a6.PNG 2023-10-06 18:36 117Kb
dk1.png 2023-10-06 18:36 3Mb
dk2.png 2023-10-06 18:36 820Kb
dk3.png 2023-10-06 18:36 931Kb
dk4.png 2023-10-06 18:36 292Kb
dk5.png 2023-10-06 18:36 1Mb
dk6.png 2023-10-06 18:36 1Mb

Diese Seite befindet sich unter aktiver Bearbeitung. 


In dieser Wikiseite werden die Kernthemen des Tutoriums "Mustererkennung / Klassifikation von Textdokumenten" vom SS18 in angepasster Form behandelt um die vermittelten Informationen für spätere Studiengänge zu erhalten.

Das Tutorium hatte zur Aufgabe, ausgewählte, meist prüfungsrelevante Inhalte der Vorlesung "Mustererkennung" anhand des praktischen Beispiels der Dokumentenstrukturanalyse zu erklären, um das Lernen zu vereinfachen.

Was ist Dokumentenklassifikation?


Bilder

Der Ausgangspunkt der Dokumentenklassifikation ist ein normales Papierdokument. Sie hat zum Ziel, dieses Dokument zu "verstehen" und anhand dieses Verständnisses Schlussfolgerungen über Art und/oder Inhalt zu treffen.
Dieses Dokument wird in mehreren Schritten weiterverarbeitet.
  1. Es wird in ein von einem Programm verwertbares Format gebracht (scannen des Dokuments -> Abspeichern z.B. in PNG)
  1. Wenn der Inhalt der Datei bestimmten Kriterien nicht entspricht, wird es korrigiert (schief eingescannt, Kaffeeflecke, rauschen, zu groß/klein)
  1. Es wird in seine Merkmale zerlegt (Strukturanalyse, ..)
  1. Anhand der Merkmale wird das Dokument klassifiziert.

Um eine Klassifizierung vorzunehmen, muss zusätzlich noch gelernt werden. Das heißt, es werden viele Beispieldaten genommen, die bereits vorklassifiziert (gelablet) sind und anhand dieser Informationen kann ein Lernalgorithmus verschiedene Klassen erlernen und (mit einer gewissen Erfolgsquote) unterscheiden.
Ein Beispiel:
Das Programm lernt die Strukturmerkmale von 500 Beispielbriefen und 500 Beispiel-Buchseiten. Bekommt es nach diesem Training einen unbekannten Brief vorgezeigt, so ist die Wahrscheinlichkeit hoch, dass es ihn richtig erkennt.
Die Erfolgsquote ist dabei immer von der gesamten Prozesskette der Mustererkennung abhängig.

Die Aufgaben der computergestützten Intelligenz


Die Prozesskette der Mustererkennung


Postulate


Was ist ein Postulat?

Ein Postulat beschreibt etwas, das nicht beweisbar ist und doch als unabdingbares Fundament für weitere Theorien gebraucht wird.

Postulat:
„Für ein Analysegebiet lässt sich eine repräsentative Stichprobe finden. Jedes Element der Grundgesamtheit muss gleiche Chancen haben, in die Stichprobe aufgenommen zu werden.“
Bild
Erklärung

Postulat:
"Ein komplexes Muster lässt sich in einfachere Bestandteile zerlegen, die untereinander in strukturellen Beziehungen stehen."

Bild
Erklärung

Postulat:
„Komplexe Muster lassen sich meist durch relativ wenige einfachere Bestandteile darstellen. Eine beliebige Auswahl dieser führt nicht zu Mustern.“

Bild
Erklärung

Die Vorverarbeitung


Die Extraktion und Verarbeitung der Merkmale


Die Nächste-Nachbarn Klassifikation "NN" und ihre Erweiterung "k-NN"


Diese Seite wurde noch nicht kommentiert.
Valid XHTML :: Valid CSS: :: Powered by WikkaWiki