Forschungen im Bereich der Montage blicken auf eine lange Tradition zurück. Klassische Verfahren beschreiten meist den Weg der Demontage, wobei sie zunächst ein bereits bestehendes Aggregat zerlegen und dabei alle möglichen Zerlegungssequenzen generieren, um aus ihnen mittels einer Heuristik die optimale Montagesequenz auszuwählen. Diese Methoden garantieren das Auffinden einer Lösung auch bei sehr komplexen Konstruktionen. Dafür werden dann allerdings bereits recht ausgeklügelte Suchverfahren (A* oder AA*) verwendet. Hinzu kommt, dass die Einzelbauteile gewisse geometrische Bedingungen erfüllen müssen.
Beobachtet man jedoch die Vorgehensweise eines Menschen bei der Montage von Aggregaten, stellt man fest, dass hier weitestgehend vorwärts gerichtete Strategien verfolgt werden. Damit ist gemeint, dass eine Person, ein endgültiges Ziel vor Augen, schrittweise beginnt, die Einzelteile zusammenzufügen, und wenn sie feststellt, dass sie einen Fehler gemacht hat, diesen zu korrigieren versucht. Es wird also in abgewandelter Form das Prinzip des Versuchs und Irrtums verfolgt, wobei sich der Versuch meist an dem gewünschten Ziel orientiert und nicht völlig dem Zufall überlassen wird.
Jeder einzelne Montageschritt wird von einer Vielzahl unbewusster Handlungen wie Umgreifen, Umorientieren, Fixieren etc. begleitet, die durch langjähriges Training erworben wurden. In technischen Systemen, deren haptische Fähigkeiten weit eingeschränkter sind als die des Menschen, muss deshalb beim Erlernen von Montagestrategien mit langen Lernphasen gerechnet werden, besonders wenn man nicht nur einen Aspekt, z.B. das Finden einer Montagesequenz mit Lernmechanismen, realisieren möchte, sondern wenn sich das gesamte System, wie in dieser Arbeit, auf lernende Methoden abstützt. In solchen Fällen bieten sich besondere Architekturen an wie z.B. Layered-Learning oder AA-learning.
In der vorliegenden Arbeit wurden verschiedene Aspekte lernender Systeme auf ein reales Mehrrobotersystem übertragen. Dabei wurden sowohl Einzelfähigkeiten mit Hilfe von Lernmechanismen antrainiert als auch das globale Verhalten, hier die Montage von Aggregaten aus Spielzeug, durch ein vorwärtsgerichtetes, zielorientiertes Verstärkungslernen untersucht.
Zur Realisation wurden unterschiedlichste Verfahren wie Funktionsapproximation, PCA, Markovsche Entscheidungsprozesse, Graphrepräsentation und -vergleich etc. verwendet. Darüber hinaus wurde ein Objektmodell zur mentalen Simulation der zu konstruierenden Bauteile realisiert und eine neue Repräsentation unendlicher Zustands-/Aktionsräume entwickelt. Neben der Fragestellung des Lernens wurde eine verteilte Roboteransteuerung verwirklicht, die es erlaubt, mehrere Manipulatoren gleichzeitig in einem sich überschneidenden Arbeitsbereich unabhängig voneinander zu betreiben. Besonderer Wert wurde dabei auf die Kooperation gelegt. Die Kommunikation der beteiligten Anwendungen beruht auf einem serverlosen Agentennetzwerk, in dem Objekte ausgetauscht werden können.