Durch den Einzug digitaler Kameras in die privaten Haushalte ist auch hier ein enormer Zuwachs der digitalen Bilddatenbestände zu verzeichnen. Diese Entwicklung wurde im kommerziellen Bereich bereits länger beobachtet und führte zu dem Bestreben, entsprechende Techniken für eine einfache Verwaltung der Bilddatenbestände zu entwickeln.
Subjektivität und der enorme manuelle Arbeitsaufwand, der bei den zunächst eingesetzten textbasierten Bildsuchsystemen zu verzeichnen war, führten zu der Forderung, die formale Repräsentation der Bilder ausschließlich aus dem visuellen Bildinhalt zu extrahieren. Diese so genannten inhaltsbasierten Bilddatenbanksysteme sind in der Lage, die Extraktion der für die Suche notwendigen Daten automatisch durchzuführen.
Einen Schritt in die Richtung der Entwicklung von Endanwendungen, die den Anforderungen eines gemeinen Anwenders gerecht werden, geht das in dieser Arbeit vorgestellte System INDI. Dieses System verbindet intelligente Techniken der inhaltsbasierten Bildsuche mit natürlicher Interaktion in Form von Sprachäußerungen und Touchscreen-Gesten. Es setzt damit kein Vorwissen in den Bereichen der Bildverarbeitung und Bildsuche, aber auch in der allgemeinen Bedienung von Rechensystemen voraus und öffnet sich damit einer entsprechend großen Menge von Anwendern.
Auf Basis der besonderen Anforderungen, die die natürliche Interaktion mittels Sprache und Gestik im Bezug zur iterativen inhaltsbasierten Bildsuche stellt, wird in dieser Arbeit zunächst das Systemkonzept der INDI-Applikation erarbeitet. Darauf aufbauend wird die Umsetzung dieses Konzepts vorgestellt. Hier wird auf Besonderheiten des entstandenen Client/Server-Systems, wie beispielsweise die Ein- und Anbindung der Sprach- und Touch-Gestenerkennung, eingegangen. Abschließend werden die Ergebnisse einer System-Evaluierung vorgestellt, die Aufschluss darüber geben, inwieweit der Einsatz der natürlichen Interaktion Einfluss auf die Bedienbarkeit des Bildsuchsystems ausübt.