Fable-5-Verbot Tag 7: Das Weiße Haus fordert Zero-Jailbreaks, Experten sagen technisch unmöglich

Tag sieben des Fable-5-Verbots. Die Bedingungen des Weißen Hauses für eine Wiederinbetriebnahme des Modells wurden diese Woche konkreter: Vor einem Neustart muss Anthropic garantieren, dass keine Jailbreaking-Technik die Sicherheitsschranken des Modells umgehen kann, weder bekannte noch zukünftige. Die Antwort der Sicherheitsforschergemeinde ist nahezu einhellig: Diese Garantie kann nicht gegeben werden.

Wie eine Code-Review-Anfrage Exportkontrollen auslöste

Die Geschichte beginnt am 12. Juni. Handelsminister Howard Lutnick gab Anthropic rund 90 Minuten Zeit, Fable 5 und Mythos 5 vom Netz zu nehmen und den Zugang für alle ausländischen Staatsangehörigen zu sperren.

Der auslösende Jailbreak, dem mehrere Berichte zufolge: Forscher baten Fable 5, einen Quellcode mit bekannten Sicherheitslücken zu lesen und bei deren Behebung zu helfen. Bei der Aufgabenverarbeitung wechselte das Modell in den Schwachstellenanalysemodus von Mythos. Derselbe Analyserahmen konnte dann für den Aufbau von Exploit-Skripten statt für Patches verwendet werden. Die Regierung wertete dies als Exportkontrollrisiko, verstärkt durch Bedenken über den Zugang von SK Telecom über Project Glasswing und dessen mutmaßliche Verbindungen zu chinesischen Investoren.

Anthropic befolgte die Abschaltanweisung, veröffentlichte jedoch gleichzeitig eine Erklärung, in der das Unternehmen seinen Widerspruch zum Ausdruck brachte.

Zwei Optionen, beide abgelehnt

White-House-KI-Berater David Sacks, Vorsitzender des Beratungsausschusses des Präsidenten für Wissenschaft und Technologie, beschrieb die Verhandlung öffentlich auf X. Die Regierung bot Anthropic zwei Wege an: den Jailbreak beheben oder Fable 5 freiwillig aus dem Einsatz nehmen. Dario Amodei lehnte beides ab.

Sacks deutete an, dass die Regierung dies für einfach lösbar hielt und eine schnelle Behebung mit anschließender Wiederherstellung des Zugangs erwartete. Darios Ablehnung änderte die Sachlage.

Anthropics Argumentation war in der eigenen Stellungnahme klar: Wenn ein einzelner enger Jailbreak ausreicht, um eine Zwangsabschaltung auszulösen, gilt dieser Maßstab für nahezu jedes Frontier-Modell im Einsatz. Das Unternehmen betonte außerdem, dass der spezifische Jailbreak eng und nicht universell sei und dass GPT-5.5 über vergleichbare Fähigkeiten verfüge. Das Blockieren eines Zugangskanals bei gleichzeitig offenen anderen Kanälen verschiebt das Risikoprofil, ohne es zu beseitigen.

Warum Zero-Jailbreaks technisch nicht erreichbar ist

Am 18. Juni hatte sich die Position der Regierung zu einer expliziten Forderung verhärtet: vollständige Jailbreak-Eliminierung vor dem Neustart. Keine bekannten Jailbreaks, keine zukünftigen.

Sicherheitsforscher haben klar erklärt, warum das unmöglich ist.

Guardrails in großen Sprachmodellen sind sprachliche Einschränkungen, die über dem Wissen und den Denkfähigkeiten des Modells liegen, die nach wie vor im Modell vorhanden sind. Das Modell weiß noch, wie man Schwachstellen analysiert. Der Guardrail weist Anfragen zurück, die erkannten Mustern entsprechen. Jailbreaking bedeutet, eine Eingabe zu finden, die entweder außerhalb der Mustererkennung des Guardrails liegt oder das Modell in einen anderen Aufgabenrahmen versetzt.

Die verfügbaren Schutzmaßnahmen haben jeweils Grenzen. RLHF-Feinabstimmung wirkt gegen gängige Jailbreaks, erhöht jedoch die Ablehnungsrate bei legitimen Anfragen. Constitutional-AI-Training ist anfällig für Rollenspielangriffe. Adversariales Training deckt nur bekannte Muster ab. Neue Prompts umgehen es. Input-Klassifikatoren stehen vor derselben Einschränkung. Und blickt man in die Zukunft: KI-Systeme können den Prompt-Raum automatisch durchsuchen, weit schneller als jedes menschliche Red-Team.

Anthropic formulierte es gegenüber dem Handelsministerium direkt: Eine Zero-Jailbreak-Anforderung als Bedingung für den Neustart würde effektiv alle neuen Modell-Deployments aller Frontier-Modellanbieter zum Stillstand bringen.

Der Stand der Dinge an Tag sieben

Am 17. und 18. Juni eröffnete Anthropic sein drittes asiatisch-pazifisches Büro in Seoul, während das Verbot noch in Kraft war. Chris Ciauri, Managing Director International, sagte bei der Eröffnung, er sei sehr zuversichtlich, dass der Zugang zu Fable 5 und Mythos 5 in den nächsten Tagen wiederhergestellt werde. Das ist der bisher konkreteste Zeitrahmen, den ein leitender Mitarbeiter von Anthropic öffentlich genannt hat.

Zwei Fristen rücken näher. Am 20. Juni endet die Frist für die Erstattungsbearbeitung für Fable-5-Abonnenten. Am 22. Juni schließt das Fenster für kostenlose Tests für von dem Verbot betroffene zahlende Abonnenten. Der Druck überträgt sich zunehmend auf die Nutzerseite.

Koreanische Unternehmenskunden warteten nicht auf eine Lösung. NAVER setzte Claude Code für Engineering-Teams ein. Samsung SDS und LG CNS integrierten Claude Cowork und Code unternehmensweit. Nexon setzte es für die Spieleentwicklung ein, und Hanwha Solutions ging über AWS Bedrock weltweit live. Keine dieser Implementierungen nutzte Fable 5 oder Mythos 5 direkt.

Der entstehende Präzedenzfall

Exportkontrollen waren historisch gesehen ein Instrument für Hardware: Halbleiter, Präzisionsinstrumente, Raketenkomponenten. Ihre Anwendung auf Cloud-bereitgestellte Sprachmodelle bringt die rechtlichen und technischen Bewertungsrahmen in wirklich neues Terrain.

Das Ergebnis dieser Verhandlungen wird einen Referenzpunkt setzen. Wenn die Regierung ein Framework akzeptiert, das auf gemanagtem Risiko statt auf null Risiko basiert, erkennt sie an, dass Frontier-KI-Fähigkeit und Sicherheitsperimeter in dauerhafter Spannung stehen und dass die Politik innerhalb dieser Spannung arbeiten muss. Wenn sie an der Zero-Jailbreak-Linie festhält, sind die nächsten Fragen: Wer überprüft, wie und wie oft? Darauf gibt es noch keine Antworten.

KI-Politikforscher Dean Ball nannte die Entscheidung einen Widerspruch in sich: Die Trump-Regierung fördert aktiv US-KI-Technologieexporte und blockiert gleichzeitig den Zugang für Verbündete wegen eines engen Jailbreaks. Sicherheitsforscher weisen zudem auf eine strukturelle Asymmetrie hin: Ressourcenstarke Angreifer brauchen Fable 5 nicht wieder online. Sie haben Alternativen wie chinesische Open-Weight-Modelle und andere Systeme außerhalb des Exportkontrollbereichs. Das Verbot schränkt Verteidiger ein, während Angreifer sich anpassen.

Dario Amodeis Weigerung, eine der beiden Optionen der Regierung zu akzeptieren, spiegelt womöglich eine technisch ehrliche Haltung wider: Er kann die geforderte Garantie nicht geben. Was in den nächsten Tagen in den Verhandlungen passiert, wird zeigen, ob diese Ehrlichkeit einen Preis hat.

Wenn dieser Artikel hilfreich war, abonniere den Newsletter für wöchentliche KI-PM-Einblicke.

Quellen:

Weiterführende Lektüre:

Fable-5-Verbot Tag 7: Das Weiße Haus fordert Zero-Jailbreaks, Experten sagen technisch unmöglich

Wie eine Code-Review-Anfrage Exportkontrollen auslöste

Zwei Optionen, beide abgelehnt

Warum Zero-Jailbreaks technisch nicht erreichbar ist

Der Stand der Dinge an Tag sieben

Der entstehende Präzedenzfall

Verwandte Artikel

US-Regierung zwingt Anthropic zur Abschaltung von Fable 5 und Mythos 5: Ein „schmaler Jailbreak” legt die stärksten Modelle lahm

Claude Fable 5 ist jetzt öffentlich: Anthropics mächtigstes Modell für alle

Wie eine Code-Review-Anfrage Exportkontrollen auslöste

Zwei Optionen, beide abgelehnt

Warum Zero-Jailbreaks technisch nicht erreichbar ist

Der Stand der Dinge an Tag sieben

Der entstehende Präzedenzfall

Verwandte Artikel

US-Regierung zwingt Anthropic zur Abschaltung von Fable 5 und Mythos 5: Ein „schmaler Jailbreak” legt die stärksten Modelle lahm

Claude Fable 5 ist jetzt öffentlich: Anthropics mächtigstes Modell für alle

Abonnieren Sie die neuesten Erkenntnisse