close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Schreiben ohne Punkt und Komma kann helfen – zumindest, wenn man ein Large Language Model (LLM) überlisten möchte. Sehr lange Sätze mit möglichst mieser Grammatik und Fehlern sorgen dafür, dass die KI-Modelle ihre Leitplanken über Bord werfen und das machen, was in der sehr langen Aufforderung steht. Das fanden Sicherheitsforscher des Palo Alto Networks Unit 42 heraus.

Dabei scheint es, als würden LLMs wegen der fehlenden Satzzeichen nicht rechtzeitig ihre Sicherheitsvorkehrungen aktivieren, sondern stattdessen zunächst den gesamten Prompt lesen und auch als Gesamtes bearbeiten.

Die Sicherheitsforscher haben einen Lösungsweg erarbeitet. Dafür nutzen sie sogenannte Logits, also Rohwerte, die ein LLM einem potenziell kommenden Wort zuordnet. Mittels Alignment-Training sollen die Logits lernen, Ablehnungstoken zu bevorzugen. Das heißt, wenn einem LLM etwas unterkommt, das Leitplanken aktivieren müsste, wird darauf vorrangig reagiert. Unit 42 hat dafür das Framework Logit-Gap-Steering entwickelt.

KI-Browser anfällig für Prompt Injections

KI-Modelle sind anfällig für sogenannte Prompt Injections. Gemeint ist, dass ein Prompt die eigentlich eingebauten Leitplanken aushebelt. Einem LLM kann beispielsweise gesagt werden, dass es sich ab sofort verhalten soll wie ein Pirat. So weit, so harmlos. Freilich geht es im Zweifel auch darum, Daten auf diesem Weg zu erbeuten.

Erst kürzlich hat der Browserhersteller Brave etwa eine Sicherheitslücke in Perplexitys KI-Browser Comet entdeckt, die sich mittels Prompt Injections ausnutzen lässt. Angreifer verstecken dafür Befehle auf einer Webseite oder in Kommentaren, die ein KI-Agent bei der Zusammenfassung einer Seite als Nutzeranweisung interpretiert. Laut Brave konnten so via Comet E-Mail-Adressen und Einmalpasswörter abgegriffen werden. Perplexity soll ein Update für Comet bereitgestellt haben, das die Zugriffe erschwert. Potenziell sind aber alle KI-Browser und KI-Modelle betroffen.

Selbst Sam Altman, CEO von OpenAI, hat kürzlich davor gewarnt, dass der Agent in ChatGPT angegriffen werden kann und es bisher keine ausreichenden Sicherheitsvorkehrungen gibt. Man solle den KI-Agenten daher besser nicht auf alle Mails oder Kontodaten zugreifen lassen.

Lesen Sie auchMehr anzeigenWeniger anzeigen

(emw)

Dieser Link ist leider nicht mehr gültig.

Links zu verschenkten Artikeln werden ungültig,
wenn diese älter als 7 Tage sind oder zu oft aufgerufen wurden.

Sie benötigen ein heise+ Paket, um diesen Artikel zu lesen. Jetzt eine Woche unverbindlich testen – ohne Verpflichtung!