Mit dem verstärkten Eintritt des Menschen in multimediale "virtuelle" Umgebungen finden Formen der nichtverbalen körperlichen Äußerung, insbesondere Gesten, als Mittel der Informationsübermittlung an maschinelle Systeme starkes Interesse. Untersucht werden in jüngerer Zeit auch 'koverbale' Gesten, also Gesten, die sprachliche Äußerungen mehr oder weniger spontan begleiten. Als Herausforderung stellt sich dabei die multimodale Integration, insbesondere die zeitliche Kopplung der beiden komplementären Modalitäten gesprochener Sprache und Gestik. Jedoch gibt es bislang kaum Lösungsvorschläge dafür, wie die multimodalen Äußerungen eines Systemnutzers – als zeitlich gestreute Perzepte auf getrennten Kanälen registriert – in ihrem zeitlichen Zusammenhang zu rekonstruieren sind. Dieser Beitrag motiviert anhand kognitionswissenschaftlicher Befunde den Stellenwert 'kommunikativer Rhythmen' in Äußerungsformen des Menschen und gibt Einblick in erste technische Arbeiten, die rhythmische Muster für die Entwicklung kognitiv motivierter Mittlersysteme zwischen Mensch und Maschine ausnutzen.