Extraktion von semantischen Relationen aus natürlichsprachlichem Text mit Hilfe von maschinellem Lernen

Authors: 
Biemann, Christian
Year: 
2002
Language: 
German
Abstract in English: 
This work describes the development of a learning method that extracts semantic relations from big unannotated text corpora. The core of the method is the iteration of a search step and a verification step. In these steps, words standing in the relation in question are found and tested. Proceeding like this it is possible to obtain a large list of words standing in the same relation, starting with only a few examples. After introducing the algorithm, some theoretical predictions about relations which are suitable for this method are undertaken. Some of the results fond by an implementation of this method are evaluated and discussed. Some possible improvements are described as well. Finally an application of the method is introduced, which exracts person names with professions in newspaper articles taken from the 'Projekt Deutscher Wortschatz'.
Abstract: 
Inhalt der vorliegenden Arbeit ist die Entwicklung eines Lernverfahrens, das aus großen Textkorpora semantische Relationen automatisch extrahiert. Den Kern des Verfahrens bildet die Iteration von Suchschritt und Verifikationsschritt, in denen in gesuchter Relation stehende Wörter gefunden und überprüft werden. Auf diese Weise ist es möglich, mit wenigen bekannten Wörtern eine große Anzahl in derselben Relation stehende Wörter zu gewinnen. So können mit wenig Aufwand große Listen von Wörtern erstellt werden, die in einem semantischen Zusammenhang stehen. Nach der Skizzierung des Algorithmus werden theoretische Vorhersagen bezüglich der für das Verfahren geeigneten Relationen getroffen, sowie der Ablauf modelliert. Einige mit einer Implementierung des Verfahrens erzielten Ergebnisse werden für verschiedene semantische Relationen vorgestellt, evaluiert und diskutiert, desweiteren werden Ausblicke und Verbesserungsmöglichkeiten angegeben. Schließlich wird eine Anwendung des Verfahrens vorgestellt, die im Rahmen des Projekt Deutscher Wortschatz in Zeitungsartikeln Personnennamen mit zugehörigen Berufsbezeichnungen markiert.
Pubdate / Erscheinungsdatum: 
2002
Pages / Seitenanzahl: 
70
AttachmentSize
2002-38.pdf689.72 KB