Random Forest
Idee
Die Idee des Random Forest ist es die Varianz der herkömmlichen Entscheidungsbäume zu verringern. Dies soll dem Entscheidungsbaum eine höhere Trefferwahrscheinlichkeit bei der Vorhersage unbekannter Merkmalsvektoren geben. Hierfür wird, in jeder Iteration, durch ziehen mit zurücklegen (bootstrapping) aus der Trainingsmenge eine Untermenge gezogen. Da die Varianz aller Iterationen nun durch die Korrelation zwischen den Bäumen beschränkt wird, muss diese möglichst verringert werden. Dies geschieht durch eine Zufällige Merkmalsselektion vor jedem Teilungsprozess.Die Entscheidung erfolgt schließlich durch ein Mehrheitsvotum aller Iterationen. [1]
Algorithmus
Quelle:[2], vgl. [1]
Parameter
- Die Anzahl der Iterationen ist wie bei allen Ensemble-Methoden ein entscheidender Parameter.
- Die Anzahl an zufällig gezogenen Merkmalen ist entscheiden für den Erfolg des Random Forest. Ein Standard wert hierfür ist die Wurzel aus der Anzahl an Merkmalen. Ist der Informationsgehalt der Merkmale jedoch unausgeglichen, kann es sein das die Anzahl höher ausfällt.
- Desweiteren müssen Parameter optimiert werden, welche den Basis-Entscheidungsbaum regulieren.
Literatur
[1] Hastie T., Tibshirani R. and Friedman J. (2009): Elements of Statistical Learning - Data Mining, Inference, and Prediction; Springer
[2] Dietz T. (2018): Bachelorarbeit “Automatisches rechnerbasiertes Lernen mit Ensemble-Methoden ”, Hochschule Schmalkalden