Die Fortschritte im Bereich der biotechnologischen Forschung der letzten Jahre haben zu einer Vielzahl von unterschiedlichen Datenbanken und Informationssystemen geführt, die ihre Daten für weitergehende Untersuchungen über das World Wide Web bereitstellen. Diese weltweit verteilten Life-Science-Datenquellen beschreiben verschiedene Aspekte biologischer Systeme und verzeichnen ein beständiges Anwachsen des verfügbaren Datenbestandes. Die Zusammenführung der vorhandenen molekularbiologischen und medizinischen Daten und ihre Untersuchung auf Beziehungen und Abhängigkeiten ist für den Nutzer von größtem Interesse. Die dazu im Rahmen dieser Arbeit präsentierten Ergebnisse wurden im Deutschen Humangenomprojekt durch das Bundesministerium für Bildung und Forschung (BMBF) gefördert und in ein Teilprojekt eines Konsortiums aus GBF Braunschweig, GSF München, Universität zu Köln, Universität Bielefeld und Universität Tübingen eingebracht.
Die Vorstellung eines Vorschlages für eine flexible Analyseumgebung, die die Suche nach Korrelationen von Genotyp und Phänotyp bei angeborenen Stoffwechselerkrankungen innerhalb integrierter Datenbestände unterstützt, ist Ziel dieser Arbeit. Dazu werden verschiedene Architekturen zur Datenintegration vorgestellt und bestehende Ansätze anhand bestimmter Merkmale gegenübergestellt. Zur Vorbereitung der Datenintegration werden weiterhin unterschiedliche molekularbiologische und medizinische Datenquellen analysiert und die erforderlichen Datenbestände für den Integrationsschritt ausgewählt. In diesem Rahmen werden auch Anforderungen an eine Datenbank für Mutationen und assoziierte Phänotypen formuliert und umgesetzt, da eine solche Datenquelle derzeit noch nicht in entsprechendem Funktionsumfang verfügbar ist. Auf der Basis dieser klinischen und molekulargenetischen Daten sind fallbasierte Suchanfragen möglich, die bereits Genotyp-Phänotyp-Korrelationen im Kleinen, beispielsweise zur Unterstützung der Differentialdiagnostik, ermöglichen.
Bei der Untersuchung der vielfältigen Zusammenhänge innerhalb und zwischen den einzelnen Komponenten eines biologischen Systemes ist es jedoch auch erforderlich, neben eindeutigen Ergebnissen auch ähnliche Resultate zu ermöglichen. Für die Berechnung dieser Ähnlichkeiten werden sowohl eigene Ansätze als auch bestehende Verfahren vorgestellt und auf ihre Eignung im vorliegenden Szenario untersucht. Der Ausgangspunkt für die Untersuchung von Beziehungen zwischen Genotypen und Phänotypen sind die in einer Integrationsdatenbank zusammengeführten Daten aus verschiedenen Life-Science-Quellen.
Als Ergebnis dieser Arbeit wird neben einem Architekturvorschlag auch ein funktionsfähiger, webbasierter Prototyp des Gesamtsystemes präsentiert. Dabei werden die einzelnen Komponenten des Architekturvorschlages vorgestellt und in ihrer Funktionsweise erläutert. Durch die Integration von medizinischen und molekularbiologischen Daten wird im Rahmen eines Beispielszenarios die Nutzung des Prototypen und das Vorgehen innerhalb der Analyseumgebung verdeutlicht.