Eine Standardproblem der Sequenzanalyse in der Bioinformatik ist die Verwandtschaftssuche, bei der eine Datenbank nach verwandten Genen zu einer Anfragesequenz durchsucht wird. Obwohl es hierfür bereits verschiedene Ansätze gibt, ist noch Raum für Erweiterungen vorhanden. Eine Möglichkeit ist es, die Information in den Quelldaten besser auszunutzen. Eine andere Möglichkeit ist die Erweiterung entsprechender Software durch neue Optionen.
Der "Jumping Alignment" Algorithmus (Jali) ist eine Methode zur Datenbanksuche. Er arbeitet auf multiplen Sequenzalignments. Im Gegensatz zu älteren Methoden kann Jali die Information in den Zeilen und den Spalten des multiplen Alignments verwenden. Erste Evaluierungen von Jali waren vielversprechend. Wir evaluieren Jali nochmals mit anderen Daten. Wir analysieren einige "Jumping alignments" mit integrierter Sekundärstrukturinformation und untersuchen, ob der Algorithmus in der Lage ist, die Sekundärstruktur zu berücksichtigen. Wir zeigen eines der seltenen Beispiele, wo dies der Fall ist. In einem zweiten Experiment simulieren wir die Evolution von zehn künstlich erzeugten Proteinfamilien und testen Jali damit. Unsere Ergebnisse zeigen, dass Jali durch seine Sprungfähigkeit an Flexibilität bei der Verwandtschaftssuche gewinnt; besonders dann, wenn die zu Grunde liegenden multiplen Alignments suboptimal sind.
Viele Alignment-basierte Methoden zur Verwandtschaftssuche haben bestimmte Beschränkungen. Sie sind nicht darauf ausgelegt, mit Duplikationen oder Umordnungen in den Eingangssequenzen umzugehen. Außerdem ist deren Ausgabe oft nur eine wenig informative Liste mit numerischen Bewertungen der einzelnen Alignments.
Wir entwickeln eine neue Methode "Passta", die diese Einschränkungen umgeht. Die erste Phase des Protokolls dient als Filter, der Datenbank-Targets ausfiltern soll, die nicht mit der Anfragesequenz verwandt sind. Die Kandidatenmenge wird dann an die Phase Zwei weitergegeben, die die eigentliche Annotation der Anfragesequenz mit Alignments von Sekundärstrukturelementen (SSEs) durchführt. Diese Alignments werden als Knoten in einem Graph repräsentiert, der optimale Pfad entspricht prinzipiell einer Auswahl der besten Alignments im Graph.
Bevor wir Passta evaluieren, trainieren wir einige Parameter der Methode und besprechen interessante Ergebnisse. Wir kalibrieren ausserdem einen wichtigen Parameter der Methode und zeigen dabei identifizierte SCOP-Familien mit Duplikationen oder Umordnungen.
Das letzte Kapitel enthält eine Evaluierung von Passta mit Jali und BLAST. Leider zeigen die Ergebnisse, dass die erste Phase von Passta nicht besonders effizient arbeitet. Der Hauptgrund ist, dass die verwendeten Sekundärstrukturalignments oft kurz und dann unspezifisch sind. Wir können aber auch das Potenzial von Phase Zwei zeigen: Wenn wir alle verwandten Sequenzen der Kandidatenmenge hinzufügen, die von Phase Eins verworfen wurden, so ist Phase Zwei in der Lage, mit etablierten Methoden wie Jali und BLAST zu konkurrieren.