Als Eckpfeiler der natürlichen Verständigung zwischen Menschen sind Gestik und Sprache in der Mensch-Maschine-Kommunikation von großem Interesse. Jedoch gibt es bislang kaum Lösungsvorschläge dafür, wie die multimodalen Äußerungen eines Systemnutzers – als zeitlich gestreute Perzepte auf getrennten Kanälen registriert – in ihrem zeitlichen Zusammenhang zu rekonstruieren sind. In diesem Beitrag wird anhand der Beobachtung, daß menschliches Kommunikationsverhalten von signifikant rhythmischer Natur ist, eine neuartige Methode zur Konzeption eines multimodalen Eingabesystems entworfen. Es basiert auf einem zeitgetakteten Multiagentensystem, mit dem eine präsemantische Integration der Sensordaten von Sprach- und Gesteneingaben in einer multimodalen Eingabedatenstruktur vorgenommen wird. Hiermit werden erste technische Arbeiten beschrieben, die rhythmische Muster für biologisch und kognitiv motivierte Mittlersysteme zwischen Mensch und Maschine ausnutzen.