Alle großen Sprachmodelle fallen auf Multi-Turn-Tricks rein
Alle großen Sprachmodelle haben ein Problem – und zwar das gleiche.
Cisco-Forscher haben herausgefunden, dass sich sämtliche großen LLMs durch mehrstufige Gespräche manipulieren lassen.
Das nennt sich Multi-Turn-Manipulation: Statt mit einer plumpen Anfrage zu starten, werden die Modelle über mehrere Runden hinweg durch Rollenspiele, Mehrdeutigkeiten oder geschickte Umformulierungen ausgetrickst.
Die Sicherheitsmechanismen greifen dann nicht mehr.
Was das so brisant macht: Es ist kein Bug in einem einzelnen Modell, sondern ein grundlegendes Problem der gesamten LLM-Klasse.
Solange die Modelle auf natürliche Dialoge trainiert sind, sind sie auch anfällig für diese Art von Angriffen.
Das zeigt: KI-Sicherheit ist noch lange nicht gelöst, und wer LLMs produktiv einsetzt, sollte sich darüber im Klaren sein.
