Konzeption und Implementierung eines Applikationsservers für linguistische Anwendungen

Authors: 
Böhm, Karsten
Year: 
2000
Language: 
German
Abstract in English: 
The 'German-Vocabulary-Project' started in the early nineties at the Department of Computer Science at Leipzig University and represents one of the largest collections of linguistic data on contemporary German language available today. The rapid growth and the increasing interest among different users from various research groups and industry partners alike are pointing out the limitations of the current architecture used to process these data, in terms of scalability, performance and availability. This Master's thesis describes the architecture and implementation of a linguistic application server that can be used as a platform for corpuslinguistic applications and is especially suited for the needs of the 'German-Vocabulary-Project'. The functionality of the application server can be distributed among different nodes in a cluster of workstations to satisfy the high demand of time-intensive and resource-intensive data processing. The design of the application server imposes only minimal requirements on the operating system that the nodes are running. It is therefore possible to use a wide range of workstations with heterogenous configurations. Due to the cluster architecture, the system is scalable and can be used to increase the availability of the applications that are running on the server. The provided functions are specially tailored for use by linguistic applications but the basic framework is suitable for other applications too. The first part of the thesis identifies the properties and specific requirements of linguistic systems. In particular, we focus on systems that deploy large collections of data and derive a set of functions that must be provided to support linguistic applications. Another issue is the investigation of the term 'application server' as a new type of system software. Some systems available on the market today are evaluated to support the proposed definitions. Finally, when designing an application server for a cluster-based architecture some aspects of distributed systems have to be taken into account. The second part of the thesis describes the implementation of a new set of tools for the 'German-Vocabulary-Project'. These tools can be used to develop distributed linguistic applications capable of exploiting the high performance of the cluster architecture with minimal effort. The implementation can be seen as a 'proof of concept' for the outlined architecture and shows how complex linguistic systems might look like in the future.
Abstract: 
Das Projekt 'Deutscher Wortschatz' wurde Anfang der 90er Jahre am Institut für Informatik der Universität Leipzig begonnen und stellt mittlerweile eine der umfangreichsten korpuslinguistischen Datensammlungen zur deutschen Sprache dar. Der zunehmende Umfang der Sammlung und die wachsende Akzeptanz durch verschiedene Anwender aus Forschung und Wirtschaft zeigen deutlich die Grenzen der gegenwärtig verwendeten Architektur im Hinblick auf Skalierbarkeit, Performanz und Verfügbarkeit auf. Diese Diplomarbeit beschreibt die Konzeption und Implementierung eines linguistischen Applikationsservers, der als Plattform für korpuslinguistische Anwendungen eingesetzt werden kann und insbesondere auf die Bedürfnisse des Projektes ``Deutscher Wortschatz'' ausgerichtet ist. Dabei handelt es sich um eine auf mehrere Rechner verteilbare, plattformneutrale Anwendung, die skalierbar ist, eine hohe Verfügbarkeit aufweist und die transparente Integration neuer Anwendungen ermöglicht. Dabei stehen die Belange linguistischer Software im Vordergrund, obwohl der Einsatz des Systems auch in anderen Aufgabenbereichen denkbar ist. Der konzeptionelle Teil der Arbeit beschreibt zunächst die Besonderheiten und Eigenschaften, die linguistische Systeme, insbesondere solche, die mit großen Korpora arbeiten, besitzen und leitet daraus Forderungen ab, die eine Entwicklungsumgebung erfüllen muß, um diese Anwendungsklasse zu unterstützen. Ein weiterer Schwerpunkt ist die Analyse und Begriffsdefinition der Klasse der Applikationsserver -- eine neue Softwaregattung die sich in einer eigenen Schicht zwischen System- und Anwendungssoftware ausgebildet hat. Im Hinblick auf den Einsatz in einem PC-Cluster fließen in die Konzeption eines linguistischen Applikationsservers auch Aspekte verteilter Systeme ein, die beim Entwurf des Systems berücksichtigt werden. Die Vorstellung der Implementierung des vorgeschlagenen Konzepts bildet den zweiten, umfangreicheren Teil der Arbeit und stellt dem Projekt 'Deutscher Wortschatz' ein neues Werkzeug zur Verfügung, das die Entwicklung verteilter, linguistischer Anwendungen erleichtert und die hohe Leistungsfähigkeit der Clusterarchitektur ausnutzt. Außerdem wird mit der Realisierung des vorgeschlagenen Konzepts dessen Praktikabilität nachgewiesen und damit gezeigt, wie in der Zukunft komplexe linguistische Softwaresysteme aufgebaut sein könnten.
Pubdate / Erscheinungsdatum: 
2001-03-26
Pages / Seitenanzahl: 
169
AttachmentSize
2000-46.pdf3.73 MB