{"id":45956,"date":"2026-03-15T10:13:09","date_gmt":"2026-03-15T10:13:09","guid":{"rendered":"https:\/\/www.europesays.com\/at\/45956\/"},"modified":"2026-03-15T10:13:09","modified_gmt":"2026-03-15T10:13:09","slug":"forscher-wollen-ki-agenten-allein-durch-nutzung-verbessern","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/at\/45956\/","title":{"rendered":"Forscher wollen KI-Agenten allein durch Nutzung verbessern"},"content":{"rendered":"<p>Das Framework OpenClaw-RL nutzt Signale, die bei jeder Interaktion ohnehin anfallen, als Live-Trainingsquelle. Pers\u00f6nliche Gespr\u00e4che, Terminal-Befehle und GUI-Aktionen flie\u00dfen in denselben Trainingsloop.<\/p>\n<p>Jede Interaktion eines KI-Agenten erzeugt ein Folgesignal. Mal ist es eine Nutzerantwort, mal ein Werkzeug-Ergebnis, mal eine Zustands\u00e4nderung im Terminal oder auf dem Bildschirm. Bisherige Systeme nutzen diese Information lediglich als Kontext f\u00fcr die n\u00e4chste Aktion und verwerfen sie dann.<\/p>\n<p>Forscher der Princeton University argumentieren, dass darin eine systematische Verschwendung liegt, und stellen mit OpenClaw-RL ein Framework vor, das diese Signale als Live-Trainingsquelle erschlie\u00dfen soll.<\/p>\n<p>Pers\u00f6nliche Gespr\u00e4che, Kommandozeilen-Befehle, Interaktionen mit grafischen Oberfl\u00e4chen, Software-Engineering-Aufgaben und Werkzeugaufrufe behandeln die Forscher dabei nicht als separate Trainingsprobleme. Sie lassen sich alle im selben Durchlauf nutzen, um dasselbe Modell zu verbessern.<\/p>\n<p><a href=\"https:\/\/www.europesays.com\/at\/wp-content\/uploads\/2026\/03\/OpenClaw-RL-Train-Any-Agent-Simply-by-Talking-OpenClaw-RL-infrastructure-overview.png\"><img fetchpriority=\"high\" decoding=\"async\" class=\"size-full wp-image-53020\" src=\"https:\/\/www.europesays.com\/at\/wp-content\/uploads\/2026\/03\/OpenClaw-RL-Train-Any-Agent-Simply-by-Talking-OpenClaw-RL-infrastructure-overview.png\" alt=\"Architekturdiagramm von OpenClaw-RL. Links sind pers\u00f6nliche Agenten (OpenClaw) und allgemeine Agenten (Terminal, GUI, SWE, Tool-Call) dargestellt, die \u00fcber Umgebungsserver mit pers\u00f6nlichen Ger\u00e4ten und Cloud-Diensten verbunden sind. Rechts der RL-Server mit drei Komponenten: Training Engine, Policy Server und PRM Server, die in einer asynchronen Schleife verbunden sind.\" width=\"997\" height=\"380\"\/><\/a>OpenClaw-RL verbindet pers\u00f6nliche und allgemeine Agenten \u00fcber Umgebungsserver mit einem RL-Server, dessen vier Komponenten asynchron und ohne gegenseitige Blockierung arbeiten. | Bild: Wang et al.<br \/>\nBewertung und Richtung stecken in jedem Folgesignal<\/p>\n<p>Laut den Forschern codieren die Folgesignale zwei Formen von Information, die bisher ungenutzt bleiben. Die erste sind bewertende Signale. Fragt ein Nutzer dieselbe Frage erneut, deutet das auf Unzufriedenheit hin. Besteht ein automatischer Test, war die Aktion erfolgreich. Diese Signale bilden nat\u00fcrliche Qualit\u00e4tsbewertungen f\u00fcr jeden einzelnen Schritt, ohne dass ein Mensch sie annotieren m\u00fcsste. Bisherige Trainingsverfahren nutzen solche Signale bestenfalls nachtr\u00e4glich aus vorab gesammelten Daten.<\/p>\n<p>Die zweite Form sind richtungsweisende Signale. Wenn ein Nutzer schreibt: &#8222;Du h\u00e4ttest zuerst die Datei pr\u00fcfen sollen&#8220;, kommuniziert er nicht nur, dass die Antwort falsch war, sondern auch, was konkret h\u00e4tte anders sein sollen. Herk\u00f6mmliche Belohnungssysteme im Reinforcement Learning reduzieren solches Feedback auf eine einzige Zahl und verlieren dabei die inhaltliche Richtungsinformation.<\/p>\n<p>Vier entkoppelte Komponenten erm\u00f6glichen Training im laufenden Betrieb<\/p>\n<p>Die Architektur von OpenClaw-RL besteht aus vier voneinander entkoppelten Komponenten. Eine stellt das Modell f\u00fcr Anfragen bereit, eine verwaltet die Umgebungen, eine bewertet automatisch die Qualit\u00e4t der Antworten und eine f\u00fchrt das eigentliche Training durch. Keine muss auf eine andere warten. Das Modell beantwortet die n\u00e4chste Nutzeranfrage, w\u00e4hrend ein Bewertungsmodell die vorherige Antwort einsch\u00e4tzt und die Trainingskomponente parallel Gewichtsupdates durchf\u00fchrt.<\/p>\n<p>F\u00fcr pers\u00f6nliche Agenten verbindet sich das Nutzerger\u00e4t \u00fcber eine vertrauliche API-Schnittstelle mit dem Trainingsserver. Gewichtsupdates erfolgen nahtlos, ohne die laufende Nutzung zu unterbrechen. F\u00fcr allgemeine Agenten skaliert das System \u00fcber Cloud-gehostete Umgebungen mit bis zu 128 parallelen Instanzen.<\/p>\n<p>Das Modell lernt von einer besser informierten Version seiner selbst<\/p>\n<p>OpenClaw-RL kombiniert dabei zwei Optimierungsmethoden. Die einfachere Variante, Binary RL, l\u00e4sst ein Bewertungsmodell jede Aktion anhand des Folgesignals per Mehrheitsentscheid als gut, schlecht oder neutral einstufen. Dieses Ergebnis flie\u00dft als klassische Belohnung ins Training.<\/p>\n<p><a href=\"https:\/\/www.europesays.com\/at\/wp-content\/uploads\/2026\/03\/OpenClaw-RL-Train-Any-Agent-Simply-by-Talking-x3.png\"><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-53022\" src=\"https:\/\/www.europesays.com\/at\/wp-content\/uploads\/2026\/03\/OpenClaw-RL-Train-Any-Agent-Simply-by-Talking-x3.png\" alt=\"Drei schematische Darstellungen der OpenClaw-RL-Methoden. Links: Binary Reward, bei dem Nutzer- oder Umgebungsfeedback als gut oder schlecht bewertet wird. Mitte: On-Policy Distillation, bei der aus Hinweisen ein Teacher-Signal entsteht und die Token-Level-Differenz zwischen Teacher und Student berechnet wird. Rechts: Schrittweise Belohnung f\u00fcr Agenten-Trajektorien, bei der Outcome- und Prozessbelohnungen kombiniert werden.\" width=\"997\" height=\"314\"\/><\/a>Die Trainingsmethoden von OpenClaw-RL im \u00dcberblick. Links die bin\u00e4re Belohnung aus Gespr\u00e4chen, in der Mitte die Destillation mit Korrekturhinweisen, rechts die schrittweise Bewertung f\u00fcr allgemeine Agenten. | Bild: Wang et al.<\/p>\n<p>Die zweite Methode, Hindsight-Guided On-Policy Distillation (OPD), geht deutlich weiter. Ein Bewertungsmodell destilliert aus dem Folgesignal einen konkreten Korrekturhinweis von ein bis drei S\u00e4tzen. Dieser wird an die urspr\u00fcngliche Anfrage angeh\u00e4ngt. Dasselbe Modell berechnet dann unter diesem erweiterten Kontext, wie wahrscheinlich es jedes einzelne Token der urspr\u00fcnglichen Antwort generiert h\u00e4tte, wenn es den Hinweis von Anfang an gekannt h\u00e4tte.<\/p>\n<p>Die Differenz liefert f\u00fcr jedes Token eine Richtungsangabe. Manche Formulierungen soll das Modell k\u00fcnftig bevorzugen, andere vermeiden. Ein separates Lehrermodell oder vorab gesammelte Daten sind daf\u00fcr nicht n\u00f6tig.<\/p>\n<p>Binary RL liefert breite Abdeckung \u00fcber alle Interaktionen, OPD liefert pr\u00e4zise Korrekturen auf Tokenebene f\u00fcr besonders informative F\u00e4lle. Laut den Forschern erzielt die Kombination beider Methoden die besten Ergebnisse.<\/p>\n<p>Wenige Dutzend Interaktionen reichen f\u00fcr sichtbare Verbesserungen<\/p>\n<p>In Simulationsexperimenten testeten die Forscher OpenClaw-RL mit dem <a href=\"https:\/\/the-decoder.de\/alibaba-bringt-qwen3-offenes-sprachmodell-mit-hybrid-reasoning-und-119-sprachen\/\" rel=\"nofollow noopener\" target=\"_blank\">Modell Qwen3-4B<\/a> in zwei Szenarien. Im ersten simuliert ein Sprachmodell einen Studenten, der OpenClaw f\u00fcr Hausaufgaben nutzt, aber nicht als KI-Nutzer erkannt werden will. Im zweiten simuliert es einen Lehrer, der spezifische, freundliche Kommentare zu Hausaufgaben erwartet.<\/p>\n<p><a href=\"https:\/\/www.europesays.com\/at\/wp-content\/uploads\/2026\/03\/OpenClaw-RL-Train-Any-Agent-Simply-by-Talking-x2.png\"><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-53021\" src=\"https:\/\/www.europesays.com\/at\/wp-content\/uploads\/2026\/03\/OpenClaw-RL-Train-Any-Agent-Simply-by-Talking-x2.png\" alt=\"Vergleich von OpenClaw-Antworten vor und nach der Optimierung in zwei simulierten Szenarien. Links das Studenten-Setting: Vorher eine stark formatierte, offensichtlich KI-generierte Antwort mit Fettdruck, nachher ein nat\u00fcrlicherer Flie\u00dftext. Rechts das Lehrer-Setting: Vorher ein knapper, unpers\u00f6nlicher Kommentar, nachher ein ausf\u00fchrliches, freundliches Feedback mit konkreten Hinweisen. Eine Tabelle zeigt die Scores: Student von 0,17 auf 0,76, Teacher von 0,22 auf 0,90.\" width=\"996\" height=\"275\"\/><\/a>Vorher-Nachher-Vergleich der OpenClaw-Antworten. Im Studenten-Setting verschwindet der typisch KI-artige Stil, im Lehrer-Setting wird das Feedback spezifischer und freundlicher. Nach acht Trainingsschritten steigen die Personalisierungsscores deutlich. | Bild: Wang et al.<\/p>\n<p>Im Studenten-Setting stieg der Personalisierungsscore von 0,17 auf 0,76 nach nur acht Trainingsschritten mit der kombinierten Methode. Binary RL allein erreichte 0,25, OPD allein ebenfalls 0,25 nach acht Schritten, holte aber nach 16 Schritten auf 0,72 auf. Im Lehrer-Setting stieg der Score von 0,22 auf 0,90. Konkret lernte der Agent nach wenigen Dutzend Interaktionen, offensichtlich KI-artige Formulierungen zu vermeiden und einen nat\u00fcrlicheren Schreibstil zu verwenden.<\/p>\n<p><a href=\"https:\/\/www.europesays.com\/at\/wp-content\/uploads\/2026\/03\/OpenClaw-RL-Train-Any-Agent-Simply-by-Talking-four_square_plots-scaled.png\"><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-53019\" src=\"https:\/\/www.europesays.com\/at\/wp-content\/uploads\/2026\/03\/OpenClaw-RL-Train-Any-Agent-Simply-by-Talking-four_square_plots-scaled.png\" alt=\"Vier Liniendiagramme zeigen die Genauigkeit \u00fcber die Anzahl der RL-Trainingsschritte f\u00fcr Terminal-, GUI-, SWE- und Tool-Call-Agenten. Terminal steigt von etwa 0,17 auf knapp 0,50 \u00fcber 100 Schritte. GUI steigt von 0,26 auf 0,31 \u00fcber 120 Schritte. SWE steigt von 0,05 auf 0,18 \u00fcber 35 Schritte mit anf\u00e4nglichem Einbruch. Tool-Call steigt von 0,08 auf 0,17 \u00fcber 250 Schritte.\" width=\"2560\" height=\"635\"\/><\/a>Trainingskurven f\u00fcr die vier Agenten-Typen. Die Genauigkeit steigt \u00fcber die RL-Schritte hinweg in allen Settings, am deutlichsten bei Terminal- und Tool-Call-Agenten. | Bild: Wang et al.<\/p>\n<p>F\u00fcr allgemeine Agenten testeten die Forscher das Framework mit verschiedenen Qwen3-Modellen in Kommandozeilen-, GUI-, Software-Engineering- und Werkzeugaufruf-Szenarien. Auch hier half die Integration schrittweiser Bewertungen. Im Werkzeugaufruf-Setting verbesserte sich die Leistung von 0,17 auf 0,30, bei grafischen Oberfl\u00e4chen von 0,31 auf 0,33.<\/p>\n<p>Das Framework soll laut den Forschern das erste System sein, das mehrere gleichzeitige Interaktionsstr\u00f6me von pers\u00f6nlichen Gespr\u00e4chen bis zu Software-Engineering-Aufgaben in einer einzigen Trainingsschleife vereint. Der <a target=\"_blank\" rel=\"noopener nofollow\" href=\"https:\/\/github.com\/Gen-Verse\/OpenClaw-RL\">Code ist auf GitHub<\/a> verf\u00fcgbar.<\/p>\n<p>Das Princeton-Framework nutzt zwar den Namen des popul\u00e4ren Open-Source-KI-Agenten OpenClaw und baut auf dessen Infrastruktur auf, ist aber ein eigenst\u00e4ndiges Forschungsprojekt ohne direkte Verbindung zum Kernteam der Plattform. OpenClaw selbst sorgte zuletzt prim\u00e4r durch <a href=\"https:\/\/the-decoder.de\/opendoor-statt-openclaw-sichereitsforscher-entlarven-gravierende-sicherheitsluecke-im-hype-agenten-clawdbot\/\" rel=\"nofollow noopener\" target=\"_blank\">gravierende Sicherheitsprobleme<\/a> f\u00fcr Schlagzeilen. Sicherheitsforscher zeigten, dass sich die Agenten \u00fcber manipulierte Dokumente vollst\u00e4ndig \u00fcbernehmen lassen, ein unabh\u00e4ngiger Test ergab nur <a href=\"https:\/\/the-decoder.de\/openclaw-haertetest-ki-agenten-geben-bereitwillig-passwoerter-und-bankdaten-preis\/\" rel=\"nofollow noopener\" target=\"_blank\">2 von 100 Sicherheitspunkten<\/a>, und auf der Plattform ClawHub wurden <a href=\"https:\/\/the-decoder.de\/mehr-als-300-verseuchte-skills-angreifer-schleusen-trojaner-in-ki-agent-openclaw-ein\/\" rel=\"nofollow noopener\" target=\"_blank\">mehr als 300 mit Trojanern verseuchte Skills<\/a> entdeckt. Gr\u00fcnder Peter Steinberger hat das Projekt inzwischen in eine Stiftung \u00fcberf\u00fchrt und ist <a href=\"https:\/\/the-decoder.de\/openclaw-entwickler-peter-steinberger-wechselt-zu-openai-fuer-neue-ki-agenten\/\" rel=\"nofollow noopener\" target=\"_blank\">zu OpenAI gewechselt<\/a>, um dort an der n\u00e4chsten Generation pers\u00f6nlicher KI-Agenten zu arbeiten.<\/p>\n<p><img decoding=\"async\" class=\"wp-worthy-pixel-img skip-lazy \" src=\"https:\/\/www.europesays.com\/at\/wp-content\/uploads\/2026\/03\/3bfce96c43594f56a35d1ae15964a79a.gif\" loading=\"eager\" data-no-lazy=\"1\" data-skip-lazy=\"1\" height=\"1\" width=\"1\" alt=\"\"\/><\/p>\n<p>\t\t\t\tKI-News ohne Hype \u2013 von Menschen kuratiert<\/p>\n<p>\n\t\t\t\t\tMit dem THE\u2011DECODER\u2011Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren w\u00f6chentlichen KI\u2011Newsletter, 6\u00d7 im Jahr den \u201eKI Radar&#8220;\u2011Frontier\u2011Newsletter mit den neuesten Entwicklungen aus der Spitze der KI\u2011Forschung, bis zu 25 % Rabatt auf KI Pro\u2011Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.\t\t\t\t<\/p>\n<p>\t\t\t\t<a href=\"https:\/\/the-decoder.de\/subscription\/\" class=\"inline-block text-white bg-(--heise-primary) mt-3 hover:bg-blue-800 focus:ring-4 focus:outline-none focus:ring-blue-300 font-medium rounded-sm w-full sm:w-auto  pl-3 pr-3 py-2.5 text-center newsletter-submit-button hover:no-underline\" rel=\"nofollow noopener\" target=\"_blank\"><br \/>\n\t\t\t\t\tJetzt abonnieren\t\t\t\t<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"Das Framework OpenClaw-RL nutzt Signale, die bei jeder Interaktion ohnehin anfallen, als Live-Trainingsquelle. Pers\u00f6nliche Gespr\u00e4che, Terminal-Befehle und GUI-Aktionen&hellip;\n","protected":false},"author":2,"featured_media":45957,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[16],"tags":[46,42,15636,9718,44,97,96,101,98,100,99],"class_list":{"0":"post-45956","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-wissenschaft-technik","8":"tag-at","9":"tag-austria","10":"tag-ki-agenten","11":"tag-openclaw","12":"tag-oesterreich","13":"tag-science","14":"tag-science-technology","15":"tag-technik","16":"tag-technology","17":"tag-wissenschaft","18":"tag-wissenschaft-technik"},"share_on_mastodon":{"url":"https:\/\/pubeurope.com\/@at\/116232664215696735","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/at\/wp-json\/wp\/v2\/posts\/45956","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/at\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/at\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/at\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/at\/wp-json\/wp\/v2\/comments?post=45956"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/at\/wp-json\/wp\/v2\/posts\/45956\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/at\/wp-json\/wp\/v2\/media\/45957"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/at\/wp-json\/wp\/v2\/media?parent=45956"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/at\/wp-json\/wp\/v2\/categories?post=45956"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/at\/wp-json\/wp\/v2\/tags?post=45956"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}