ich war hier: VorstellungLVQ

Die Vorstellung der LVQ-Familie



A. Einleitung


Die Lernende Vektorquantisierung (LVQ, learning vector quantisation) ist ein künstliches neuronales Netz und besitzt eine einschichtige Topologie. Die Neuronen lernen nach dem Wettbewerbsprinzip. Das Neuron mit der höchsten Ähnlichkeit zu dem eingegebenen Merkmalsvektor gewinnt den Wettbewerb und nur auf dieses wird die Lernregel angewandt, welche relativ einfach ist. Das Verfahren benötigt wenig Rechenleistung und wenig Hauptspeicher und ist deshalb für empirische Parameteroptimierungen, bei denen extrem viel gelernt und verworfen werden muss, sehr gut geeignet. Die weiteren nachfolgenden Ausführungen orientieren sich an einem Vorlesungsmanuskript [Golz, 2016] und an einer Abschlussarbeit eines Kommilitonen [Zapf, 2016]. Unter allen Algorithmen der LVQ-Familie stellt sich immer wieder OLVQ1 als leistungsstärkster heraus, dieser verwendet für jedes Neuron eine individuelle Lernschrittweite und hat deshalb einen etwas höheren Hauptspeicherbedarf. Offenbar ist die Anpassung der Lernschrittweite ein wichtiges Element des Erfolgs. Im nächsten Abschnitt werden Methoden vorgestellt, die die Anpassung der Lernschrittweite noch mehr verfeinern. OLVQ1 wird als bevorzugte Methode für die empirische Optimierung der gesamten Prozesskette und für die Bruteforce-Selektion von Merkmalstypen verwendet. Entscheidend für den Erfolg ist eine geeignete Initialisierung der Gewichtsmatrix, hierfür wurde 1998 von der Hochschule Schmalkalden eine Methode entwickelt [Golz et al., 1998]. Die Anzahl der Neuronen wird dabei vorgegeben und zufällig datengetrieben initialisiert. Während des Initialisierungsverfahrens können sich einige Neuronen als tote Neuronen herausstellen, diese werden vor dem Start des Lernverfahrens gelöscht. Das Löschen toter Neuronen ist ein entscheidendes Konzept um Überanpassung (overfitting) zu vermeiden.


B. Generalisierendes Relevanzlernen


Die nachfolgenden Ausführungen lehnen sich an das Kapitel 11.5 des Vorlesungsskripts „Computergestützte Intelligenz, Teil 1“ der Hochschule Schmalkalden an [Golz, 2016]. Wenn eine Klassifikation präzise gelingt, stellt sich stets die Frage, welche Merkmale hierfür sehr hilfreich und welche weniger hilfreich waren. Dabei ist anzunehmen, dass auf die weniger hilfreichen verzichtet werden könnte, ohne Beeinträchtigung des Klassifikationerfolges. Es gibt Lernverfahren, die die Relevanz der Merkmale unter Berücksichtigung der Klassenentscheidung eigenständig lernen. Dabei gibt es Lernregeln für die Relevanzfaktoren, welche die Wichtigkeit der einzelnen Merkmale beschreibt. Ein Konzept ist die Verwendung der Relevanzfaktoren in einer gewichteten Metrik unter Einbeziehung der gewichteten Euklid’schen Distanz.
formel
\overline x
formel
und
formel
\overline y
formel
seien zwei
formel
d
formel
-dimensionale Merkmalsvektoren und
formel
r_1
formel
bis
formel
r_d
formel
seien die Relevanzfaktoren der einzelnen Dimensionen von
formel
\overline x
formel
bzw.
formel
\overline y
formel
, dann werden diese wie folgt als Gewichtungsvektoren eingesetzt.

formel
d=\|\overline x - \overline y\|=\sqrt[2]{r_1(x_1-y_1)^2+r_2(x_2-y_2)^2+...+r_d(x_d-y_d)^2}
formel


Die Relevanzfaktoren
formel
r_1
formel
bis
formel
r_d
formel
bilden einen Vektor der so normiert wird, dass die Summe ihrer Komponenten, also die Summe der Relevanzfaktoren, gleich eins ist. Dadurch können alle Relevanzen prozentual interpretiert werden. Unter allen relevanzlernenden Algorithmen der LVQ-Familie soll hier vor allem die Generalisierte Relevanz-LVQ (GRLVQ) [Hammer & Villmann, 2002] vorgestellt werden. Folgende Algorithmen werden ebenfalls vorgestellt.
Eine Arbeitsgruppe der TU Graz entwickelte Distinction Sensitive-LVQ (DSLVQ) [Pregenzer et al., 1994]. Eine japanische Arbeitsgruppe führte das Konzept der Generalisierten LVQ (GLVQ) [Sato & Yamada, 1995] ein. Aus der Arbeitsgruppe von Hammer wurde daraufhin das Konzept der Relevanz-LVQ (RLVQ) [Bojer et al., 2001] eingeführt.
Folgende vier Abarbeitungsschritte sind bei allen, hier vorgestellten LVQ-Algorithmen durchzuführen. Diese Abarbeitungsschritte laufen zyklisch ab, sodass immer nach Schritt 4 der Zyklus mit Schritt 1 startet, wobei ein neues, aktuelles Datenpaar von Merkmalsvektor
formel
\overline {x_i}
formel
und Klassennummer
formel
t_i
formel
aus der Trainingsmenge entnommen wird. Der Zyklus wird abgebrochen, wenn die Anzahl der Iterationen
formel
n
formel
, die hier die Zyklusanzahl ist, einen von vornherein festgelegten Schwellwert
formel
n_{max}
formel
überschreitet.
1) Neuronenwettbewerb


1.1)
Mit der gewichteten Distanz
formel
\|\overline {x_i}-\overline {w_j}\|_\overline r
formel
wird der erste und zweite Gewinner berechnet
formel
(\overline {w_c},d_c)
formel
bzw.
formel
(\overline {w_s}, d_s)
formel
. Der Index
formel
c
formel
bedeutet „closest“ und bezeichnet den Gewichtsvektor
formel
\overline w
formel
, der die geringste Distanz zum aktuellen Merkmalsvektor
formel
\overline {x_i}
formel
hat. Der Index
formel
s
formel
bedeutet „second closest“ und bezeichnet den Gewichtsvektor mit der zweitgeringsten Distanz zum aktuellen Merkmalsvektor. Die Klassennummer, die den Neuronen in der Initialisierungsphase fest zugeordnet wurde, wird mit
formel
d
formel
bezeichnet.


1.2)
Bezüglich der Klassennummer sind vier Fälle möglich

(a)
formel
d_c = t_i \wedge d_s \ne t_i
formel

(b)
formel
d_c \ne t_i \wedge d_s = t_i
formel

(c)
formel
d_c = t_i \wedge d_s = t_i
formel

(d)
formel
d_c \ne t_i \wedge d_s \ne t_i
formel


Hier bezeichnet
formel
t_i
formel
die fest zugeordnete Klassennummer des aktuellen Merkmalvektors
formel
\overline {x_i}
formel



1.3)
Nun sind die Schrittweitenfaktoren
formel
(K_c, K_s)
formel
gemäß Tabelle 1 auszuwählen, wobei die vier Fälle (a) bis (d) aus 1.2) zu berücksichtigen sind. Die Tabelle enthält zusätzlich die ausführenden Abarbeitungsschritte je nach Methode, die eingangs erwähnt wurden.

Tabelle 1 - Auszuführende Abarbeitungsschritte und auszuwählende Schrittweitenfaktoren je nach LVQ-Methode. Die Fälle (a) bis (d) sind im Text erklärt.
Tabelle 1 aus [Golz, 2016]


Man ersieht aus Tabelle 1, dass die Schrittweitenfaktoren größtenteils konstant sind, wobei die Konstante Null bedeutet, dass sich keine Gewichtsvektoränderung ergibt und deshalb die Lernregel nicht angewandt werden muss. Bei positiven bzw. negativen Konstanten wird der Gewichtsvektor so verändert, dass das Neuron vom aktuellen Merkmalsvektor angezogen
bzw. abgestoßen wird. Die Algorithmen GLVQ und GRLVQ verwenden jedoch variable Schrittweitenfaktoren, sie sind also adaptiv und hängen von den Distanzen der beiden gewinnenden Neuronen vom aktuellen Merkmalsvektor ab. Die Formeln hierzu sind unterhalb der Tabelle vermerkt und wurden von Sato et al. bzw. Hammer und Villmann hergeleitet. Dabei bedeutet
formel
sgd'
formel
die erste Ableitung der Sigmoidfunktion.

2) Gehe zu Schritt 3., falls


2.1)
in 1.2) der Fall (a) oder (b) vorliegt und

2.2)
der aktuelle Merkmalsvektor
formel
\overline {x_i}
formel
in einem hyperbolischen Fenster zwischen
formel
\overline {w_c}
formel
und
formel
\overline {w_s}
formel
liegt.
Andernfalls gehe zu Schritt 1) und wähle den nächsten aktuellen Merkmalsvektor aus der Trainigsmenge aus.

3) Anwendung der Lernregel für beide gewinnende Gewichtsvektoren nach den folgenden Formeln.


formel
\Delta \overline {w_c}=v_c \eta (n)(\overline {x_i}-\overline {w_c}), \Delta \overline {w_s}=\upsilon _s \eta (n)(\overline {x_i}-\overline {w_s})
formel


4) Anwendung der Lernregel für Relevanzfaktoren nach den folgenden Schritten.
Der Index
formel
k
formel
bezeichnet die Komponente des Relevantfaktors.

4.1) Aktualisierung der Relevanzfaktoren nach folgenden Relevanzlernregeln.


RLVQ:
formel
r_k=r_k^0-\upsilon_c \eta_r (x_{i,k}-w_{c,k})^2
formel


GRLVQ:
formel
r_k=r_k^0- \eta_r sgd'(\xi \frac{\|\overline {x_i}-\overline {w_c}\|_r-\|\overline {x_i}-\overline {w_s}\|_r}{\|\overline {x_i}-\overline {w_c}\|_r+\|\overline {x_i}-\overline {w_s}\|_r}) \xi \frac{\|\overline {x_i}-\overline {w_s}\|_r(x_{i,k}-w_{c,k})^2-\|\overline {x_i}-\overline {w_c}\|_r(x_{i,k}-w_{s,k})^2}{(\|\overline {x_i}-\overline {w_s}\|_r+\|\overline {x_i}-\overline {w_c}\|_r)^2}
formel


wobei für Fall (a):
formel
\xi=+1
formel
und für Fall (b):
formel
\xi=-1
formel
gilt.

DSLVQ:
formel
r=r^0+ \eta_r (p^0-r^0)
formel


mit
formel
p_k=\xi \frac{|x_{i,k}-w_{s,k}x_{i,k}-w_{c,k}|}{max(|x_{i,k}-w_{s,k}
x_{i,k}-w_{c,k}|)}
formel


formel
\xi=\pm 1
formel
für Fall (a) bzw. (b)

Falls Abbruchskriterium
formel
(n \gt n_{max})
formel
nicht erfüllt, gehe zu Schritt 1.
Der finale Gewichtsvektor
formel
r^0
formel
enthält die Relevanzfaktoren für jedes Merkmal.

4.2) Schwellwertvergleich, um negative oder zu kleine Relevanzwerte zu verhindern.


RLVQ:
formel
r_k=max(r_k,0)
formel


GRLVQ:
formel
r_k=max(r_k,0)
formel


DSLVQ:
formel
r_k=\left\{\begin{array}{c} 1, r_k \gt 1 \\ 10^{-4},r_k \lt 10^{-4} \\ r_k, \textrm{sonst}\end{array}\right.
formel


4.3) Normierung des Relevanzvektors

RLVQ:
formel
r^0=\frac{1}{\|r\|_2}r
formel


GRLVQ:
formel
r^0=\frac{1}{\|r\|_2}r
formel


DSLVQ:
formel
r^0=\frac{1}{\|r\|_1}r,p^0=\frac{1}{\|p\|_1}p
formel



Nach Abschluss aller Trainingszyklen (Iterationen) liegt eine optimale Verteilung aller Gewichtsvektoren vor, dem eigentlichen Trainingsergebnis. Bei den relevanzlernenden LVQ-Verfahren liegt zusätzlich noch der Relevanzfaktor vor, der ausdrückt, welche Merkmalsvektorkomponenten besonders ausschlaggend für den Trainingserfolg waren und welche nicht.


C. Literatur


  • [Bojer et al. 2001] Bojer, Hammer, Shunk, Tluk von Toschanowitz – Relevance Determination in Learning Vector Quantization. Proceedings ESANN: 271-276
  • [Golz & Sommer et al. 1998] Golz, Sommer, Lembcke, Kurella – Classification of Pre-Stimulus EEG of K-Complexes using Competitive Learning Networks. Proceedings EUFIT (3): 1767-1771, Mainz-Verlag Aachen
  • [Golz, 2016] Computergestützte Intelligenz I. Vorlesungsmanuskript, Hochschule Schmalkalden
  • [Hammer, Villmann, 2002] Generalized Relevance Learning Vector Quantization. Neural Networks 15: 1059-1068
  • [Pregenzer et al., 1996] Pregenzer, Pfurtscheller, Flotzinger – Automated Feature Selection with Distinction Sensitive Learning Vector Quantization. Neurocomputing 11: 19-29
  • [Sato, Yamada, 1995] Generalized Learning Vector Quantization. In: Tesauro, Touretzky, Leen (eds) Advances in Neural Information Processing Systems, 7: 423-429
  • [Thomas, 2016] Neuroinformatische Analysen von Elektrookulogrammen aus einer Nachtfahrtsimulationsstudie. Bachelorarbeit, Hochschule Schmalkalden
  • [Zapf, 2016] Lernfähige Algorithmen zur adaptiven Musterklassifikation von elektroenzephalographischen Signalen hypovigilanter Versuchspersonen – Durchführung und Auswertung einer Nachtfahrtsimulationsstudie. Bachelorarbeit, Hochschule Schmalkalden



zurück zum Hauptartikel
Diese Seite wurde noch nicht kommentiert.