Diese Arbeit beschreibt ein System zur Steuerung der Aufmerksamkeit eines mobilen Roboters, das es ihm erlaubt, sich aktiv auf einzelne Personen für die Interaktion zu fokussieren. Diese Fähigkeit ist insbesondere dann erforderlich, wenn sich mehrere Personen in der Nähe des Roboters aufhalten, von denen jede potenziell einen Interaktionspartner darstellt. Die Aufmerksamkeitssteuerung entscheidet dann darüber, auf wen die Kamera des Roboters gerichtet wird und welche mit den Mikrofonen erfasste Äußerung verarbeitet wird.
Die grundlegende Voraussetzung für die Steuerung der Aufmerksamkeit ist die Fähigkeit des Roboters, Personen in seiner Nähe zu detektieren und über die Zeit zu verfolgen. Der in dieser Arbeit eingesetzte Roboter verfügt dazu über eine Kamera, zwei Mikrofone und einen Laser-Entfernungsmesser. Die Kamera, die den oberen Bereich von Menschen erfasst, dient zur Detektion von Gesichtern und zur Lokalisation des Oberkörpers. Mit den Mikrofonen werden Sprachquellen geortet. Der Laser-Entfernungsmesser wird zur Detektion von menschlichen Beinpaaren eingesetzt. Die Integration der verschiedenen Erkennungsergebnisse erfolgt über ein in dieser Arbeit neu entwickeltes Verfahren zum Verfolgen von Personen. Es erweitert den Anchoring-Ansatz von Coradeschi und Saffiotti auf die gleichzeitige Verwendung mehrerer Sensoren und wird entsprechend als multimodales Anchoring bezeichnet. Eine zentrale Rolle bei der Erweiterung spielen dabei drei Modelle, die die räumlichen Relationen der beobachteten Einzelbestandteile und ihre Bewegung über die Zeit beschreiben, sowie die Fusion neuer Messdaten zu einer multimodalen Gesamthypothese definieren. Darüber hinaus stellt die Erweiterung Funktionalitäten zur Verwaltung von einer variablen Anzahl von Personenhypothesen zur Verfügung.
Die Aufmerksamkeitssteuerung setzt auf den Ergebnissen des Verfahrens zum Verfolgen von Personen auf. Sie selektiert aus der Menge der wahrgenommenen Personen diejenige, die für den Roboter die höchste Relevanz hat. In der Interaktionsphase ist dies immer der Benutzer, was zu einer dauerhaften Aufmerksamkeit führt. In der Bereitschaftsphase bestimmt sich die Relevanz jeder Person anhand der Merkmale "sprechen" und "zum Roboter schauen". Somit werden bevorzugt jene Personen selektiert, die beabsichtigen, mit dem Roboter zu interagieren. Die Aufmerksamkeitssteuerung fokussiert die Aufmerksamkeit des Roboters auf die selektierte Person. Dies geschieht durch aktives Ausrichten der Roboterbasis und der separat beweglichen Kamera. Dadurch wird sowohl die selektierte Person optimal mit den Sensoren wahrgenommen als auch der Aufmerksamkeitsfokus des Roboters intuitiv verständlich nach außen hin dargestellt. Das genaue Verhalten des Roboters ist situationsabhängig und durch so genannte Aufmerksamkeitszustände definiert. Es gibt vier Zustände in der Bereitschaftsphase, die den Roboter schlafend, wach, wachsam oder zuhörend darstellen. In der Interaktionsphase sind die Zustände an die Dialogsituation gebunden, wobei der Roboter auf eine Anweisung wartet, dem Benutzer folgt, eine Zeigegeste erwartet oder auf ein Objekt schaut. Eine weitere Aufgabe der Aufmerksamkeitssteuerung ist die Aktivierung und Deaktivierung der Sprachverarbeitung. Hiermit wird die auditive Aufmerksamkeit des Roboters realisiert, die dazu dient, nur solche Äußerungen zu verarbeiten, die an den Roboter gerichtet sind.
Fünf verschiedene Experimente demonstrieren die Leistungsfähigkeit des entwickelten Systems. Sie zeigen sowohl die Robustheit des Verfahrens zum Verfolgen von Personen als auch die Effektivität der Aufmerksamkeitssteuerung im praktischen Einsatz. Die Auswertung von Benutzerbefragungen hat ergeben, dass die Aufmerksamkeit in der Mehrheit als eine besonders interessante Fähigkeit des Roboters bewertet wird, was auf eine hohe Akzeptanz des vorgestellten Ansatzes bei Benutzern schließen lässt.