OpenAIs erstes eigenes KI-Chip Jalapeño: In neun Monaten entwickelt, um die Inferenzkosten zu senken
Kurzfassung
OpenAI und Broadcom präsentierten Jalapeño, OpenAIs ersten eigenen Inferenz-ASIC. Von der Entwicklung bis zum Tape-out in neun Monaten, mit KI-unterstütztem Chip-Design. Bereitstellung Ende 2026 geplant, kein NVIDIA-Ersatz, sondern eine gezielte Wette auf Inferenzkostenoptimierung.
Meine These zur Diskussion: Jalapeño ist kein NVIDIA-Killer, sondern ein Zeichen dafür, dass die Branche die Inferenzschicht systematisch standardisiert. Wenn das stimmt, wäre der logische nächste Schritt ein offener Inferenz-ASIC-Standard. Stimmt ihr dem zu, oder seht ihr strukturelle Hindernisse, die das verhindern? Ich denke dabei vor allem an die Frage der Modellarchitektur-Drift, aber vielleicht gibt es aus eurer Sicht gewichtigere Gegenargumente.
Am 24. Juni stellten OpenAI und Broadcom gemeinsam Jalapeño vor, OpenAIs ersten eigenen KI-Chip. Es handelt sich um einen Inferenz-Beschleuniger, keinen Trainings-GPU-Ersatz.
Engineering-Samples wurden OpenAI-CEO Sam Altman und Präsident Greg Brockman von Broadcom-CEO Hock Tan und Präsident Charlie Kawwas persönlich übergeben. Die Samples laufen bereits GPT-5.3-Codex-Spark-Inferenz-Workloads auf Zielfrequenz und -leistung. Die Produktionsbereitstellung ist für Ende 2026 geplant, wobei dieser Chip als erster Schritt einer Mehrgenerationen-Plattform positioniert wird.
Was Jalapeño tatsächlich leistet
Laut der gemeinsamen Ankündigung auf dem OpenAI-Blog und der Broadcom-Investorenseite ist Jalapeño ein zweckgebundener ASIC für LLM-Inferenz. Die Architektur adressiert spezifische Engpässe: kostspielige Datenbewegungen, die Balance zwischen Rechenleistung und Speicherbandbreite sowie Netzwerkeffizienz.
Greg Brockman erklärte: “We have a deep understanding of the workload. We’ve really been looking for specific workloads that are underserved.”
Die Zusammenarbeit folgte einer klaren Aufgabenteilung: OpenAI übernahm Architekturdesign und KI-unterstützte Optimierung, Broadcom die Siliziumimplementierung und Netzwerkverbindungen, Celestica die Platinen-, Rack- und Systemintegration.
Die Zahlen hinter den Schlagzeilen
Neun Monate Entwicklung: Komplizierter als es aussieht
Ein Neun-Monats-Zeitplan von Design bis Tape-out ist für Hochleistungs-ASICs ungewöhnlich; normale Zeitpläne liegen bei 24 bis 36 Monaten. Drei Faktoren haben sich wahrscheinlich überlagert: Broadcom hat erhebliches bestehendes IP aus früheren Custom-Silicon-Programmen wiederverwendet; OpenAIs eigene Modelle haben EDA-Optimierungsabläufe beschleunigt; und die Architektur wurde bewusst einfacher gehalten als ein allgemeiner Beschleuniger.
Alle drei Faktoren können gleichzeitig zutreffen. Der größte Teil der Berichterstattung fixierte sich auf “KI hat ihre eigene Hardware entworfen”, eine sauberere Erzählung als “Broadcom hatte die richtige IP-Bibliothek bereit.”
Leistungsbehauptungen ohne unabhängige Verifizierung
“Deutlich bessere Leistung pro Watt als aktuelle Alternativen” stammt aus OpenAIs eigenen Tests. Kein unabhängiges Benchmark hat dies bestätigt. Der Chip ist noch nicht in Produktion. Die Vergleichsbasis, ob H100, H200 oder B200, ist in keiner öffentlichen Ankündigung spezifiziert.
Ein nützlicher Fermi-Rahmen: Wenn OpenAIs inferenzspezifischer Rechenaufwand bei etwa 3-4 Milliarden Dollar jährlich liegt, bedeutet eine Effizienzverbesserung von 15-20% eine jährliche Kostenreduktion von 450 bis 800 Millionen Dollar bei vollständiger Bereitstellung. Das ist groß genug, um eine mehrjährige Custom-Silicon-Investition zu rechtfertigen.
Broadcoms eigene Prognose setzt den KI-Chip-Umsatz für Q3 bei 16 Milliarden Dollar an, mit einem langfristigen Ziel von 100 Milliarden Dollar. OpenAI als Ankerkunde verbessert die Umsatztransparenz erheblich.
Warum Inferenz und nicht Training
OpenAI war eindeutig: Vortraining und andere intensive Workloads laufen weiterhin auf NVIDIA-Hardware. Das ist rationale Spezialisierung, keine Niederlage. LLM-Training erfordert architektonische Programmierbarkeit, die sich mit jeder Modellgeneration ändert. Inferenz im ChatGPT-Maßstab ist ein stabilerer, vorhersehbarerer Workload, der maßgeschneiderte Optimierung belohnt.
Indikatoren für die nächsten sechs Monate
Drei überprüfbare Ergebnisse verdienen Aufmerksamkeit:
ChatGPT-API-Preisgestaltung. Wenn Jalapeño planmäßig bis Ende 2026 bereitgestellt wird, sollten OpenAIs API-Kosten pro Million Token Anfang 2027 messbar sinken. OpenAI hat historisch Preissenkungen innerhalb weniger Quartale nach Infrastrukturkostensenkungen vorgenommen.
Broadcoms KI-Umsatzkonzentration. Wenn die Q3- und Q4-Earnings-Calls eine erhöhte Sichtbarkeit von einem strategischen Großkunden zeigen, hat der Jalapeño-Bereitstellungszeitplan externe Bestätigung.
Architektur-Drift-Risiko. OpenAI liefert alle sechs Monate neue Modellarchitekturen. Jalapeños Designannahmen sind auf die heutigen Inferenzmuster festgelegt. Wenn die Inferenzarchitektur 2027 deutlich von heute abweicht, ist das der eigentliche Stresstest für eine Apple-ähnliche Full-Stack-Strategie im KI-Bereich.
Wenn dieser Artikel hilfreich war, abonniere den Newsletter für wöchentliche KI-PM-Einblicke.
Weiterführende Links:
Verwandte Artikel
GPT-5.5 offiziell veröffentlicht: 14 Benchmark-Siege und Jensen Huangs 100-Milliarden-Dollar-Wette
GPT-5.5 erschien am 23. April und führt 14 Benchmarks an. Dahinter steckt Jensen Huangs NVIDIA-Wette: 10 Gigawatt Infrastruktur, bis zu 100 Milliarden Dollar Investition.
GPT-5.6 Sol gestartet, aber gesperrt: Wie Washington den Zugang zu KI-Spitzenmodellen kontrolliert
GPT-5.6 Sol wurde am 26. Juni veröffentlicht, ist aber nur für 20 von der US-Regierung geprüfte Partner zugänglich. Die Benchmark-Zahlen sind sekundär gegenüber dem neuen Governance-Muster.