OpenAIs erstes eigenes KI-Chip Jalapeño: In neun Monaten entwickelt, um die Inferenzkosten zu senken

Meine These zur Diskussion: Jalapeño ist kein NVIDIA-Killer, sondern ein Zeichen dafür, dass die Branche die Inferenzschicht systematisch standardisiert. Wenn das stimmt, wäre der logische nächste Schritt ein offener Inferenz-ASIC-Standard. Stimmt ihr dem zu, oder seht ihr strukturelle Hindernisse, die das verhindern? Ich denke dabei vor allem an die Frage der Modellarchitektur-Drift, aber vielleicht gibt es aus eurer Sicht gewichtigere Gegenargumente.

Am 24. Juni stellten OpenAI und Broadcom gemeinsam Jalapeño vor, OpenAIs ersten eigenen KI-Chip. Es handelt sich um einen Inferenz-Beschleuniger, keinen Trainings-GPU-Ersatz.

Engineering-Samples wurden OpenAI-CEO Sam Altman und Präsident Greg Brockman von Broadcom-CEO Hock Tan und Präsident Charlie Kawwas persönlich übergeben. Die Samples laufen bereits GPT-5.3-Codex-Spark-Inferenz-Workloads auf Zielfrequenz und -leistung. Die Produktionsbereitstellung ist für Ende 2026 geplant, wobei dieser Chip als erster Schritt einer Mehrgenerationen-Plattform positioniert wird.

Was Jalapeño tatsächlich leistet

Laut der gemeinsamen Ankündigung auf dem OpenAI-Blog und der Broadcom-Investorenseite ist Jalapeño ein zweckgebundener ASIC für LLM-Inferenz. Die Architektur adressiert spezifische Engpässe: kostspielige Datenbewegungen, die Balance zwischen Rechenleistung und Speicherbandbreite sowie Netzwerkeffizienz.

Greg Brockman erklärte: “We have a deep understanding of the workload. We’ve really been looking for specific workloads that are underserved.”

Die Zusammenarbeit folgte einer klaren Aufgabenteilung: OpenAI übernahm Architekturdesign und KI-unterstützte Optimierung, Broadcom die Siliziumimplementierung und Netzwerkverbindungen, Celestica die Platinen-, Rack- und Systemintegration.

Die Zahlen hinter den Schlagzeilen

Neun Monate Entwicklung: Komplizierter als es aussieht

Ein Neun-Monats-Zeitplan von Design bis Tape-out ist für Hochleistungs-ASICs ungewöhnlich; normale Zeitpläne liegen bei 24 bis 36 Monaten. Drei Faktoren haben sich wahrscheinlich überlagert: Broadcom hat erhebliches bestehendes IP aus früheren Custom-Silicon-Programmen wiederverwendet; OpenAIs eigene Modelle haben EDA-Optimierungsabläufe beschleunigt; und die Architektur wurde bewusst einfacher gehalten als ein allgemeiner Beschleuniger.

Alle drei Faktoren können gleichzeitig zutreffen. Der größte Teil der Berichterstattung fixierte sich auf “KI hat ihre eigene Hardware entworfen”, eine sauberere Erzählung als “Broadcom hatte die richtige IP-Bibliothek bereit.”

Leistungsbehauptungen ohne unabhängige Verifizierung

“Deutlich bessere Leistung pro Watt als aktuelle Alternativen” stammt aus OpenAIs eigenen Tests. Kein unabhängiges Benchmark hat dies bestätigt. Der Chip ist noch nicht in Produktion. Die Vergleichsbasis, ob H100, H200 oder B200, ist in keiner öffentlichen Ankündigung spezifiziert.

Ein nützlicher Fermi-Rahmen: Wenn OpenAIs inferenzspezifischer Rechenaufwand bei etwa 3-4 Milliarden Dollar jährlich liegt, bedeutet eine Effizienzverbesserung von 15-20% eine jährliche Kostenreduktion von 450 bis 800 Millionen Dollar bei vollständiger Bereitstellung. Das ist groß genug, um eine mehrjährige Custom-Silicon-Investition zu rechtfertigen.

Broadcoms eigene Prognose setzt den KI-Chip-Umsatz für Q3 bei 16 Milliarden Dollar an, mit einem langfristigen Ziel von 100 Milliarden Dollar. OpenAI als Ankerkunde verbessert die Umsatztransparenz erheblich.

Warum Inferenz und nicht Training

OpenAI war eindeutig: Vortraining und andere intensive Workloads laufen weiterhin auf NVIDIA-Hardware. Das ist rationale Spezialisierung, keine Niederlage. LLM-Training erfordert architektonische Programmierbarkeit, die sich mit jeder Modellgeneration ändert. Inferenz im ChatGPT-Maßstab ist ein stabilerer, vorhersehbarerer Workload, der maßgeschneiderte Optimierung belohnt.

Indikatoren für die nächsten sechs Monate

Drei überprüfbare Ergebnisse verdienen Aufmerksamkeit:

ChatGPT-API-Preisgestaltung. Wenn Jalapeño planmäßig bis Ende 2026 bereitgestellt wird, sollten OpenAIs API-Kosten pro Million Token Anfang 2027 messbar sinken. OpenAI hat historisch Preissenkungen innerhalb weniger Quartale nach Infrastrukturkostensenkungen vorgenommen.

Broadcoms KI-Umsatzkonzentration. Wenn die Q3- und Q4-Earnings-Calls eine erhöhte Sichtbarkeit von einem strategischen Großkunden zeigen, hat der Jalapeño-Bereitstellungszeitplan externe Bestätigung.

Architektur-Drift-Risiko. OpenAI liefert alle sechs Monate neue Modellarchitekturen. Jalapeños Designannahmen sind auf die heutigen Inferenzmuster festgelegt. Wenn die Inferenzarchitektur 2027 deutlich von heute abweicht, ist das der eigentliche Stresstest für eine Apple-ähnliche Full-Stack-Strategie im KI-Bereich.

Wenn dieser Artikel hilfreich war, abonniere den Newsletter für wöchentliche KI-PM-Einblicke.

Weiterführende Links:

OpenAIs erstes eigenes KI-Chip Jalapeño: In neun Monaten entwickelt, um die Inferenzkosten zu senken

Was Jalapeño tatsächlich leistet

Die Zahlen hinter den Schlagzeilen

Neun Monate Entwicklung: Komplizierter als es aussieht

Leistungsbehauptungen ohne unabhängige Verifizierung

Warum Inferenz und nicht Training

Indikatoren für die nächsten sechs Monate

Verwandte Artikel

GPT-5.5 offiziell veröffentlicht: 14 Benchmark-Siege und Jensen Huangs 100-Milliarden-Dollar-Wette

GPT-5.6 Sol gestartet, aber gesperrt: Wie Washington den Zugang zu KI-Spitzenmodellen kontrolliert

Was Jalapeño tatsächlich leistet

Die Zahlen hinter den Schlagzeilen

Neun Monate Entwicklung: Komplizierter als es aussieht

Leistungsbehauptungen ohne unabhängige Verifizierung

Warum Inferenz und nicht Training

Indikatoren für die nächsten sechs Monate

Verwandte Artikel

GPT-5.5 offiziell veröffentlicht: 14 Benchmark-Siege und Jensen Huangs 100-Milliarden-Dollar-Wette

GPT-5.6 Sol gestartet, aber gesperrt: Wie Washington den Zugang zu KI-Spitzenmodellen kontrolliert

Abonnieren Sie die neuesten Erkenntnisse