In diesem Beitrag stellen wir unsere Ergebnisse zur Erforschung sprachlich/gestischer Eingaben zur Steuerung und Manipulation von Virtuellen Umgebungen vor. Konkret werden die Resultate an einem System für die multimodale Interaktion in der Virtuellen Konstruktion erläutert. Nach einem Überblick über bisherige Arbeiten auf dem Gebiet der multimodalen Steuerung, wird die benötigte Interaktionsfunktionalität anhand der realen Anwendung beschrieben. Darauf aufbauend folgt neben einer Beschreibung möglicher sprachlicher Handlungsanweisungen eine Klassifikation verschiedener Gestentypen, um mögliche Kandidaten für die Umsetzung der unterschiedlichen Manipulationsaufgaben in dieser Domäne zu identifizieren, und dieses an Interaktionsbeispielen zu erläutern. Als Resultat werden sprachgestützte deiktische und mimetische Gesten des Benutzers betrachtet. Erstere dienen der Referenzanalyse, letztere machen gewünschte Veränderungen "vor". Diese Manipulationen werden durch sprachliche oder gestische Trigger eingeleitet und bewirken eine Anpassung in den Funktionsmodi der Auswertung, wobei im Abschnitt der technischen Realisierung zwischen diskreten und kontinuierlichen Interaktionen unterschieden wird. Für die Umsetzung einer kontinuierlichen Modifikation der virtuellen Szene werden neben dem Konzept der Manipulatoren sogenannte Aktuatoren als Repräsentanten für Benutzermodalitäten eingeführt. Diese koppeln während der Interaktion an sogenannte Motion-Modifikatoren, um die unscharfen Sensor-Eingaben zu korrigieren.