Kompression von DNA Sequenzen

Authors: 
Hiller, Michael
Year: 
2002
Language: 
German
Abstract: 
Standardkompressionsverfahren erreichen bei Texten, die Programmkode oder menschliche Sprache enthalten, sehr hohe Kompressionsraten. DNA Sequenzen weisen eine lineare Basenabfolge auf und können daher auch als Texte betrachtet werden. Allerdings gelingt es den Standardkompressoren in den meisten Fällen nicht, DNA Sequenzen zu komprimieren. Selbst wenn sich eine DNA Sequenz komprimieren läßt, ist die Kompressionsrate äußerst gering. Es gibt zwei mögliche Erklärungen für diese Beobachtung. Entweder sind DNA Sequenzen generell nicht komprimierbar oder die bisherigen Kompressoren sind dazu nicht in der Lage. In dieser Diplomarbeit soll diese Frage untersucht werden. Dabei wird sich herausstellen, daß sich auch DNA Sequenzen komprimieren lassen, wenn ein Kompressor charakteristische Eigenschaften ausnutzt. Es werden wesentliche Unterschiede von menschlicher Sprache zu DNA Sequenzen erläutert und DNA spezifische Kompressionsverfahren vorgestellt. Kompression läßt sich nicht nur zur Reduktion des benötigten Speichers verwenden, sondern es gibt eine Vielzahl an Anwendungsgebieten, wo Kompressionsverfahren in der Biologie eingesetzt werden können. So lassen sich phylogenetische Bäume mit Hilfe von Kompressionsverfahren aus genetischen Daten rekonstruieren. Auch zur Charakterisierung von unterschiedlichen Regionen im Genom kann ein Kompressor verwendet werden. Im zweiten Teil der Arbeit wird auf diese Gebiete näher eingegangen. Dabei werden praktische Versuche durchgeführt, um Nutzen und Anwendbarkeit genauer zu untersuchen, aber auch um Grenzen der Methoden aufzuzeigen.
Pubdate / Erscheinungsdatum: 
2002-08-07
Pages / Seitenanzahl: 
137
AttachmentSize
2002-10.pdf651.19 KB