Diese Arbeit befasst sich mit der Vorhersage von Genen, von Genexpressionsraten und der Detektion und Charakterisierung von horizontal transferierten Genregionen in mikrobiellen Genomen. Diese Themen sind sowohl für die Annotation als auch für weiterführende, experimentelle Analysen eines Organismus von Bedeutung. Teile der Arbeit wurden bereits in verschiedenen Fachzeitschriften veröffentlicht. Der Inhalt von Kapitel 1 wird in diesem Jahr in Bioinformatics erscheinen, Kapitel 3 wurde in der ersten Ausgabe von Proteomics in 2004 veröffentlicht. Die Implementierung einer Genvorhersagekomponente für das Annotationssystem GenDB wird in der Veröffentlichung über das Annotationssystem in Nucleic Acids Research (April 2003) beschrieben. Im Folgenden werden die Ziele und Themen dieser Arbeit genauer beschrieben.
Im ersten Kapitel wird die Entwicklung von Genvorhersage-Strategien für mikrobielle Genome, basierend auf den häufig verwendeten Programmen Glimmer und Critica, beschrieben. Aufgrund der Vielzahl von laufenden Genomprojekten verschiedener Organismen wird es zunehmend wichtiger, ein performantes Verfahren für diese Aufgabe zu haben. Hierzu wurde ursprünglich die Performanz der beiden Programme auf einem Datensatz von 114 prokaryotischen Genomsequenzen evaluiert. Anschließend wurden kombinierte Vorhersagestrategien entwickelt, die eine signifikante Performanz-Verbesserung aufweisen. Dies ist besonders für GC-reiche Genome der Fall. Die Methoden werden zur Zeit bereits in mehreren mikrobiellen Genomprojekten angewandt.
Der zweite Teil der Arbeit beschäftigt sich mit der Evaluierung des synonymen Codongebrauchs in den Kodierregionen prokaryotischer Genome. Zur Klassifikation anhand von Eigenschaften des Codongebrauchs wird ein neues, auf log-odds ratio scores basierendes Verfahren eingeführt, welches einige vorteilhafte Eigenschaften besitzt. In Kapitel 2 wird das Verfahren und dessen Implementierung in dem Program CoBias beschrieben.
In Kapitel 3 wird das Verfahren angewendet, um Genexpressionsraten anhand von Expressionlevel-abhängigen Eigenschaften des Codongebrauchs vorherzusagen. Durch einen Vergleich mit Daten aus zwei Proteomstudien wird die implizite Annahme der Vorgehensweise untersucht und bestätigt. Es wird gezeigt, wie die Ergebnisse der Methode sich verwenden lassen, um die 'in silico' Simulation von 2-dimensionalen Gelelektrophoreseexperimenten zu verbessern.
Im vierten Kapitel wird das Verfahren angewendet, um, basierend auf Unterschieden im synonymen Codongebrauch zwischen mikrobiellen Genomen, horizontal transferierte Gene zu erkennen und einen möglichen Donor für diese vorherzusagen. Die Vorhersage eines Donors ist eine Neuerung gegenüber anderen Methoden, die horizontal transferierte Gene anhand ihrer atypischen Sequenz-Zusammensetzung detektierten. Eine Evaluation des Ansatzes wird für das Genom des hyperthermophilen Bakteriums Thermotoga maritima durchgeführt, welches Genregionen von vermutlich archaebakteriellem Ursprung enthält. Die mit der neuen Methode gefundenen Ergebnisse stehen im Einklang mit den Ergebnissen von früheren phylogenetischen und strukturellen Analysen des Genomes und liefern weiteres, unabhängiges Beweismaterial für den archaebakteriellen Ursprung von Teilen des T. maritima Genoms.