Klassifikation mittels adaptiver Partitionierung

Authors: 
Sambale, Alexander
Year: 
2016
Language: 
German
Abstract: 
Diese Arbeit behandelt maschinelles Lernen und führt dabei von theoretischen Überlegungen zu Implementierungen, sowie deren Vergleich mit typischen Verfahren aus der Praxis. Nach einer kurzen Einführung in das Thema maschinelles Lernen wird der Hauptaugenmerk auf die binäre Klassifikation gelenkt. Dabei werden aufbauend auf der Wahrscheinlichkeitstheorie wichtige Begriffe wie Regressionsfunktion, Klassifikator, Bayes’scher Klassifikator, Risiko und zusätzliches Risiko eingeführt und auf deren Wechselwirkungen eingegangen. Das Ziel ist dann bei unbekannter Verteilung, anhand eines durch diese Verteilung entstanden Beobachtungsdatensatzes, einen Klassifikator zu finden, der das zusätzliche Risiko minimiert. Da die Verteilung unbekannt ist, kann man das zusätzliche Risiko nicht direkt berechnen und versucht es durch Aufspaltung in Schätz- und Näherungsfehler nach oben abzuschätzen. Das führt zur VC Dimension und einem Objekt, welches als Modulus bezeichnet wird. Unter gewissen Zusatzannahmen an die Verteilung, wie Randbedingungen und Zugehörigkeit zu einer Approximationsklasse, lässt sich dann die Abschätzung der Fehler bewerkstelligen. Jedoch sind die Parameter in diesen Bedingungen nicht bekannt und es stellt sich die Frage, wie man trotzdem eine möglichst günstige Abschätzung erhält. Das führt zu einer speziellen Modellwahl, die für den ausgewählten Klassifikator eine ebenso gute Schranke liefert, wie wenn man die Wahl unter Kenntnis der unbekannten Parameter treffen würde. Dieses Wissen wird dann auf dyadische Bäume und deren Partitionierungen angewendet. Darauf aufbauend wird ein Baumalgorithmus implementiert, der diese Modellauswahl benutzt und zusätzlich ein Vergleichsalgorithmus der ebenfalls dyadische Bäume gebraucht. Anschließend folgt eine Einführung in typische praxisrelevante Methoden zur Klassifizierung und der Vergleich mit den implementierten Verfahren mittels der Programmiersprache und Softwareumgebung für statistische Berechnungen R. Dabei liefern meist mehrere der gewöhnlicherweise verwendeten Verfahren sehr gute Ergebnisse. Außerdem zeigt sich, dass die dyadischen Bäume für niedrigdimensionale Probleme gute Ergebnisse erzielen und für hochdimensionale Problemstellungen sehr rechenintensiv und damit zeitintensiv werden. Insgesamt liefert die Diplomarbeit damit einen praxisnahen und theoretisch fundierten Einstieg in das Thema des maschinellen Lernens mit anwendungsorientierten Beispielen in der Programmiersprache R.
AttachmentSize
diplomarbeit_alexander_sambale.pdf1.48 MB