Das Ende des Tokenmaxxings: Wie unkontrollierte KI-Ausgaben die Krise mitverursachten
Kurzfassung
Token-Verbrauch stieg um das 18,6-Fache, Fehlerquoten um 54%, Code-Churn um 861%. Uber, Microsoft, Meta und Amazon bremsen radikal, ausgerechnet vor den IPO-Plänen von OpenAI und Anthropic.
Meine These zur Diskussion: Die Verschiebung hin zu ergebnisbasierter Abrechnung wird Anthropics Umsatzwachstum stärker belasten als Analysten derzeit einpreisen, weil der Optimierungsdruck in die Applikationsschicht wandert. Falls du in deinem Unternehmen KI-Ausgaben verantwortest: Hat sich euer Token-Verbrauchswachstum seit April bereits abgeflacht, oder hält der Anstieg noch an? Konkrete Zahlen aus der Praxis sind wertvoller als jede externe Modellschätzung.
Die Zahlen zuerst
Der Token-Verbrauch pro Entwickler stieg in neun Monaten um das 18,6-Fache, von Herbst 2025 bis Mitte 2026. Bevor Meta im April sein internes „Claudeonomics”-Leaderboard abschaltete, verbrauchte der Spitzennutzer 281 Milliarden Token pro Monat. Bei Anthropics Opus-4.8-Preisen von rund 5 Dollar pro Million Token entspricht das etwa 1,4 Millionen Dollar monatlich für einen einzigen Ingenieur. Salesforces jährliche Anthropic-Rechnung lag bei ungefähr 300 Millionen Dollar.
Das Produktivitätsparadoxon: In Entwicklungsumgebungen mit hohem KI-Einsatz stiegen Fehlerquoten um 54% und Code-Überarbeitungsraten um 861%. Mehr Token, mehr Nacharbeit.
Dieser Zustand hat einen Namen: Tokenmaxxing. Token-Verbrauch als Produktivitätskennzahl behandeln.
Warum es so weit kam
Das Goodhart’sche Gesetz, angewandt auf Unternehmenssoftware. Sobald „KI-Nutzung” zur Leistungskennzahl wird, optimieren Mitarbeitende die Kennzahl statt das Ergebnis. Amazon löste im Mai sein KI-Führungskomitee auf, nachdem festgestellt wurde, dass Mitglieder bedeutungslose KI-Arbeitslasten erzeugten, um ihre Verbrauchsstatistiken zu verbessern. Metas Leaderboard erzeugte dieselbe Dynamik: Der Ingenieur mit dem höchsten Token-Verbrauch produzierte nicht zwingend den höchsten Geschäftswert.
Die Korrektur kam schnell und traf mehrere Unternehmen fast gleichzeitig:
- Uber verbrauchte das gesamte KI-Budget 2026 bis April, nach nur vier Monaten, und begrenzte danach die KI-Tool-Ausgaben auf 1.500 Dollar pro Mitarbeiter und Monat
- Microsoft kündigte am 1. Juni Claude-Code-Abonnements in mehreren Abteilungen und wechselte zur nutzungsbasierten Copilot-Abrechnung
- Meta schaltete das Token-Verbrauchs-Leaderboard im April ab
- Amazon löste das KI-Führungskomitee im Mai auf
Der CEO von Lindy verlagerte 100% des Traffics von Claude zu DeepSeek, ausschließlich aus Kostengründen.
Was die Zahlen tatsächlich bedeuten
Microsofts Entscheidung trägt das stärkste Signal. Claude Code Enterprise kostet etwa 75 bis 100 Dollar pro Nutzer und Monat. Bei 100.000 Ingenieuren sind das bis zu einer Milliarde Dollar jährlich. Der Wechsel zur nutzungsbasierten Copilot-Abrechnung senkt das erheblich. Das Signal reicht über die Kostenfrage hinaus: Microsoft entwickelt GitHub Copilot selbst. Die Entscheidung für das eigene Produkt ist eine Qualitätsbewertung, die in Einkaufsentscheidungen protokolliert ist. Kein Analystenreport hat dieses Gewicht.
Der Lindy-Fall verdeutlicht die strukturelle Ökonomie: Zwischen Frontier-Modellen besteht ein 25-facher Preisunterschied. Anthropic Opus 4.8 kostet etwa 5 Dollar/MTok; GPT-5.4-nano liegt bei rund 0,20 Dollar/MTok. In vielen Workflows ist der Qualitätsunterschied weit geringer als dieser Preisunterschied. Die Mathematik zählt endlich, wenn CFOs die Rechnungen sehen.
Die technische Lösung existiert bereits. Context Engineering, also Optimierung des Prompt-Inhalts statt blindem Auffüllen, reduziert den Token-Verbrauch laut Anthropics eigenen Auswertungen um 84%, ohne nennenswerten Qualitätsverlust. RouteLLM, ein Routing-System für günstigere Modelle bei entsprechender Eignung, senkt Kosten um über 85% bei rund 95% Qualitätserhalt. Teams, die diese Techniken anwenden, reduzieren Kosten um 60 bis 90%. An der Modellqualität lag es nie. Jeder Anreiz zur Optimierung fehlte schlicht.
Indikatoren für die nächsten 90 Tage
OpenAI und Anthropic reichten Anfang Juni IPO-Unterlagen ein. Die Q3-2026-Berichte liefern den ersten öffentlichen Datenpunkt: Hat das Token-Verbrauchswachstum bei Top-Tier-Modellen strukturell nachgelassen? Fällt das Wachstum unter 15% im Quartalsvergleich, müssen aktuelle Bewertungsmodelle deutlich revidiert werden.
Die Verschiebung des Preismodells ist das strukturell langfristigere Signal. Das Futurum-Survey 2026 zeigt: Die Adoption ergebnisbasierter Preisgestaltung hat sich im Jahresvergleich fast verdoppelt. Intercom: 0,99 Dollar pro gelöstem Gespräch. HubSpot: 0,50 Dollar. Zendesk: rund 1,50 Dollar. Wenn Applikationsschichten das Kostenrisiko absorbieren und kommerziell motiviert sind, Token-Nutzung zu minimieren, verstärkt sich der Druck auf Premium-Modellpreise im Upstream kontinuierlich.
Gary Marcus formulierte es klar: „Die meisten Unternehmen, die massiv in LLMs investiert haben, werden Schwierigkeiten haben, ihre Investitionen zurückzugewinnen.” Eine überprüfbare Hypothese. Bis September gibt es mehr Daten.
Quellen: CNBC Enterprise-KI-Ausgabenanalyse, Corti Token-Discipline-Bericht
Wenn dieser Artikel hilfreich war, abonniere den Newsletter für wöchentliche KI-PM-Einblicke.
Verwandte Artikel
Claude überholt OpenAI bei Enterprise-KI erstmals: Was die Ramp-Abrechnungsdaten zeigen
Erstmals hält Anthropics Claude mehr US-Enterprise-KI-Ausgaben als OpenAI — 34,4 % vs. 32,3 % laut Ramp AI Index Mai 2026. Claude Code treibt Anthropics vierfaches Jahreswachstum in Unternehmen.
GPT-5.6 Sol gestartet, aber gesperrt: Wie Washington den Zugang zu KI-Spitzenmodellen kontrolliert
GPT-5.6 Sol wurde am 26. Juni veröffentlicht, ist aber nur für 20 von der US-Regierung geprüfte Partner zugänglich. Die Benchmark-Zahlen sind sekundär gegenüber dem neuen Governance-Muster.