Ein Forschungsteam der Hong Kong Baptist University hat ein neues Verfahren zur Gestenerkennung in Virtual-Reality-Umgebungen vorgestellt. Die Methode soll Bewegungen ohne Trackingkamera, spezielle Sensoren oder umfangreiche Trainingsdaten ermöglichen, indem große Sprachmodelle akustische Signale analysieren. Sollten sich LLMs auch für die Interpretation akustischer Bewegungsdaten eignen, könnten sie künftig als flexible Schnittstelle für natürliche Bewegungen in immersiven Umgebungen dienen.
Weiterlesen nach der Anzeige
Ultraschalltracking mit Smartphone und LLM
Moderne VR-Brillen wie die Meta Quest 3 erfassen Bewegungen der Hände oder VR-Controller in Echtzeit über im Headset verbaute Kameras. Eine KI-gestützte Software analysiert diese, um sie zu interpretieren und exakt im Raum zu verorten. Während das Tracking von VR-Controllern bei guten Lichtverhältnissen nahezu latenzfrei möglich ist, gibt es beim deutlich aufwendigeren kamerabasierten Handtracking nach wie vor Ungenauigkeiten.
Geräte in höheren Preisregionen wie Apples Vision Pro oder Samsungs Galaxy XR nutzen deshalb ergänzend zur Kamera Eye-Tracking. Damit können die Geräte präzise berechnen, wohin Nutzer blicken, während sie eine Eingabe tätigen. Auch hier sind die Interaktionen nicht immer perfekt, wenngleich spürbar geschmeidiger als bei herkömmlichem Handtracking. Eines haben jedoch sämtliche Tracking-Lösungen gemeinsam: Sie erfordern kostspielige Hardware, viel technisches Know-how und Unmengen an Trainingsdaten.
Statt die sichtbaren Bewegungen per Kamera zu erfassen und auszuwerten, möchten die Forschenden aus Hongkong eine günstigere und effizientere Methode etablieren: die Messung von Schallwellen im Ultraschallbereich. Während eines ersten Experiments setzte das Team ein Smartphone ein, das kontinuierlich hochfrequente Signale aussendet und empfängt, die durch Hand- oder Controllerbewegungen reflektiert und verändert werden. Diese Veränderungen werden als sogenannte Channel Impulse Responses (CIR) gemessen und anschließend in dCIR-Bilder umgewandelt, die die zeitlichen Unterschiede im Schallmuster darstellen.
heise online XR-Briefing abonnierenheise online XR-Briefing abonnieren
Jeden zweiten Montag, liefern wir Ihnen die wichtigsten Entwicklungen der XR-Branche. Damit Sie alles im Blick behalten.
E-Mail-Adresse
Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.
Um diese Bilder zu interpretieren, kommen multimodale Sprachmodelle zum Einsatz, die neben Text auch visuelle Eingaben verarbeiten können. Das Forschungsteam definierte 15 unterschiedliche Gesten, darunter Zahlen, Buchstaben und einfache Formen. Zehn Testpersonen führten jede Geste mit einem VR-Controller jeweils zehnmal aus. Die daraus entstandenen 1500 dCIR-Bilder wurden zur Klassifikation genutzt. Das System vergleicht dabei ein neues Bild mit ähnlichen Beispielen aus der Datenbank. Diese Auswahl sowie das zu analysierende Bild werden in einen Prompt eingebettet und dem Sprachmodell übergeben. Anschließend entscheidet das Modell, welche Geste am wahrscheinlichsten ist, und liefert eine Begründung für die Wahl.
Je klarer die Geste, desto eindeutiger das Ergebnis
Weiterlesen nach der Anzeige
Laut den Forschenden zeigen die Ergebnisse eine besonders hohe Erkennungsrate bei klar strukturierten Gesten wie Ziffern oder geometrischen Formen. Hier erreichten die Sprachmodelle Werte von über 90 Prozent. Komplexere Buchstaben mit mehreren Kurven führten hingegen häufiger zu Verwechslungen. Das zuverlässigste Modell für Zahlen war OpenAIs GPT-5. Bei Buchstaben und Formen hatte Anthropics Claude 4 die Nase vorn. Gemini 2.5 Pro lag in sämtlichen Bereichen auf dem dritten Platz. Im Vergleich zu klassischen Verfahren für Klassifikationsaufgaben wie k-Nearest-Neighbor oder Support-Vector-Machines lagen die Sprachmodelle noch leicht zurück, benötigten dafür aber deutlich weniger Trainingsdaten. Zudem liefern sie im Gegensatz zu den herkömmlichen Modellen eine schriftliche Begründung für ihre Entscheidung, was die Ergebnisse nachvollziehbarer macht und bei der Weiterentwicklung der Systeme hilfreich sein soll.
Bisher beweisen die Forschenden nur, dass ihr System grundlegend funktioniert. In der Praxis müsste es allerdings nahezu latenzfrei arbeiten. Zudem bleibt die Frage offen, wie es überhaupt in einem fertigen Produkt umgesetzt werden könnte. Google scheiterte bereits mit dem Konzept Gestensteuerung durch Schallwellen – damals allerdings noch ohne den Einsatz von LLMs. Der 2015 vorgestellte Chip „Project Soli“ sonderte elektromagnetische Wellen ab und erkannte Abweichungen in deren Wellenmuster submillimetergenau. Soli kam schließlich als „Motion Sense“ im Smartphone Pixel 4 zum Einsatz und sollte dort die Steuerung des Smartphones per Fingerbewegungen aus der Ferne ermöglichen. Als Gestensteuerung funktionierte Soli allerdings nicht zuverlässig genug und wurde später als Messgerät für Atem- und Körperbewegungen während des Schlafes in der Smart-Home-Zentrale Nest Hub 2 verbaut.
(joe)
Dieser Link ist leider nicht mehr gültig.
Links zu verschenkten Artikeln werden ungültig,
wenn diese älter als 7 Tage sind oder zu oft aufgerufen wurden.
Sie benötigen ein heise+ Paket, um diesen Artikel zu lesen. Jetzt eine Woche unverbindlich testen – ohne Verpflichtung!