Fuzzy-Suchmethoden im Information-Retrieval

Homann, Ingo R.

Im Informationszeitalter mit seinen ständig wachsenden Datenmengen ist spätestens seit dem Siegeszug des Internets nicht mehr das Fehlen, sondern das Finden von Informationen zum Problem geworden.
Bisher stellte die boolesche Logik die Grundlage sowohl für die Indexierung als auch für das spätere Wiederauffinden von Daten. So konnte in einer Volltextdatenbank nach Dokumenten gesucht werden, die z.B. die Stichworte "boolean", "information" UND "retrieval" im Titel tragen, oder in einer Gebrauchtwagen-Datenbank nach Autos, die neuer als 5 Jahre sind, wobei das Ergebnis bestenfalls preislich sortiert ausgegeben werden konnte. Dokumente, bei denen nur zwei der drei Begriffe im Titel vorkommen, und der dritte nur im Untertitel, oder als "Schnäppchen" angebotene Autos, die nur einen Monat älter als 5 Jahre sind, wurden von derartigen Systemen nicht gefunden.
Wenngleich die Unter- bzw. Fehl-Spezifikation der booleschen Suchanfragen als Ursache für das Scheitern einer derartigen Recherche herangezogen werden kann, so muss doch eine weitere Schlussfolgerung gezogen werden:
Die konventionelle, boolesche Suchlogik ist in vielen Fällen nicht mehr adäquat. Sie stößt an ihre Grenzen, da sie mit ihren beiden Verknüpfungen UND und ODER nur entweder zu spezielle oder zu allgemeine Anfragen unterstützt und nur die beiden extremen, in der Realität nicht genug differenzierenden Zustände "wahr" und "falsch" kennt, weswegen sie keine strukturierten Ergebnismengen ermöglicht.
Für moderne Suchmaschinen stellen sich drei neue Herausforderungen:
(1) Die Integration und Nutzbarmachung heterogener Datenquellen.
(2) Die Definition neuartiger, semantisch sinnvoller und intuitiv nachvollziehbarer Aggregationsoperatoren und Bewertungsfunktionen.
(3) Die Implementation effizienter Algorithmen, die trotz riesiger Datenvolumina und aufwändiger Suchlogik kurze Antwortzeiten garantieren.
Der erste Aspekt ist besonders im Bereich der Metasuche über verschiedene Internetquellen interessant. Mittlerweile steht eine Unzahl von Online-Datenbanken verschiedenster Domänen zur Verfügung. Viele davon basieren auf der konventionellen, booleschen Logik, weil die zugrundeliegenden, kommerziellen Datenbanken nur für dieses bestens erforschte Paradigma effiziente Datenstrukturen und Retrieval-Algorithmen zur Verfügung stellen. Der Anspruch für eine Metasuchmaschine besteht also nicht nur in der Homogenisierung der heterogenen Quellen, was zu einem großen Teil ein Problem eher technischer Natur ist, sondern insbesondere auch in der Abbildung neuartiger Retrieval-Techniken auf die althergebrachten, booleschen Systeme.
Der zweite Aspekt betrifft die mathematische Interpretation natürlichsprachlicher Anfragen wie der Suche nach einem "möglichst neuen und möglichst günstigen Gebrauchtwagen" oder "Dokumenten mit einigen der Begriffe 'boolean', 'information', 'retrieval'", die eine intuitivere und adäquatere Modellierung der Wirklichkeit liefern soll, als die, welche die boolesche Aussagenlogik zur Verfügung stellt.
Der dritte Aspekt, auf dem das Hauptinteresse dieser Arbeit liegt, betrifft die triviale Forderung nach einer komfortablen Recherche mit kurzen System-Antwortzeiten, deren Erfüllung durch zweierlei Ansprüche erschwert wird: Die steigenden Datenvolumina ziehen unmittelbar einen höheren Aufwand bei der Indexierung und Suche nach sich, den gestiegene Rechenleistung, Netz- und Speicherkapazität nur in begrenztem Umfang kompensieren können: Durch die Metasuche über verschiedene Internetquellen liegen die Daten nicht mehr wie früher lokal - und damit sehr schnell verfügbar - vor, und können aufgrund kürzerer Halbwertzeiten und Aktualisierungs-Intervalle auch nicht einfach gespiegelt werden. Zum anderen zieht der Ansatz der gewichteten Suche einen stark erhöhten Aufwand nach sich: Die Ergebnismengen bzw. zu aggregierenden Teilmengen enthalten nicht mehr, wie bei der booleschen Logik, genau die (wenigen) Datensätze, die das gewünschte Kriterium exakt erfüllen, sondern potentiell alle Datensätze der Datenbank, wobei für jeden einzelnen Datensatz der (häufig sehr geringe) Zugehörigkeitsgrad berechnet werden muss.
Die vorliegende Arbeit wird diese Problemstellungen näher beleuchten, bestehende Lösungsansätze vorstellen und eigene Ansätze darstellen. Als illustrierende Beispiele werden sich die bibliographische Suche und die Suche in einer Gebrauchtwagen-Datenbank, die bereits angerissen wurden, durch die Arbeit ziehen.

Detailsuche

Bibliotheken

Projekt

Impressum

Datenschutz

Titelaufnahme