In der vorliegenden Arbeit werden neue Ansätze des visuellen Dataminings zur Analyse von intrinsisch hierarchischen komplexen Biodaten entwickelt. Die Anwendung dieser Verfahren wird anhand von Genexpressionsdaten aus dem Bereich der Biomedizin sowie von Gensequenzdaten im Bereich der Metagenomik gezeigt.
Komplexe biologische Daten sind charakterisiert durch eine hohe Dimensionalität, Multimodalität, fehlende Werte und Rauschen, wodurch die Analyse dieser Daten deutlich erschwert wird. Sie lassen sich in Primärdaten (Kerndaten bzw. Messwerte, die durch moderne Technologien in hoher Zahl erzeugt werden) und Sekundärdaten (ergänzende Daten, Zusatzinformationen und Hintergrundwissen) unterteilen. Zudem weisen biologische Daten oftmals eine innere hierarchische Struktur auf (z.B. Spezies im Baum des Lebens). Diese Eigenschaft sollte bei der Entwicklung neuer Ansätze zur Analyse komplexer Daten berücksichtigt werden.
Im Bereich des maschinellen Lernens steht eine große Zahl von Computeralgorithmen zur Verfügung, um diejenigen strukturellen Muster aus existierenden komplexen Daten zu extrahieren, an denen der Forscher interessiert ist. In dieser Arbeit werden bestehende Algorithmen angepasst sowie neue entwickelt, die sowohl Primär- als auch Sekundärdaten in die Auswertung einbeziehen und gleichzeitig Einsicht in die analysierten Daten gewähren. Dazu werden Gütemaße zur Clustervalidierung sowie Visualisierungstechniken entwickelt.
In dieser Arbeit wird der Tree Index (TI) für die externe Validierung hierarchisch geclusterter Daten entwickelt, um die Analyse von Genexpressionsdaten zu unterstützen. Der TI wird zum Normalisierten Tree Index erweitert (NTI), mit dessen Hilfe sich Korrelationen zwischen geclusterten Primärdaten und externen Labels identifizieren lassen. Anwendung findet ausserdem die sog. REEFSOM (Nattkemper, 2005), welche adaptiert wird, um geclusterte Gendaten, klinische Daten und kategorische Daten in einer Darstellung zu integrieren.
Auf dem Gebiet der Gensequenzanalyse wird ein Klassifikator für die Selbst-Organisierende Karte (SOM) im hyperbolischen Raum entwickelt, mit dem kleine DNA-Fragmente variabler Länge klassifiziert werden können. Hierfür werden 350 prokaryotische Organismen auf sechs taxonomischen Ebenen im Baum des Lebens verwendet. Zum Schluss wird gezeigt, inwieweit SOMs im euklidischen und im hyperbolischen Raum in der Lage sind, die strukturelle Organisation der prokaryotischen Organismen im Baum des Lebens abzubilden.