Thinking Machines veröffentlicht TML-Interaction-Small: Wie 0,40 Sekunden die Spach-KI verändern
Kurzfassung
Thinking Machines' TML-Interaction-Small erreicht 0,40 Sekunden Latenz — 3x schneller als OpenAI — indem es die Pipeline-Architektur vollständig verwirft und Interaktivität durch skaliertes Training lernt.
Am 11. Mai 2026 veröffentlichte Thinking Machines Lab ihr erstes Modell: TML-Interaction-Small.
Die Antwortlatenz beträgt 0,40 Sekunden. OpenAIs GPT-Realtime-2.0 liegt bei 1,18 Sekunden. Das ist kein schrittweiser Fortschritt, sondern ein struktureller Unterschied.
Die eigentlich interessante Frage lautet: Warum dieser Abstand? Die Antwort liegt nicht in den technischen Details, sondern in einer grundlegenderen Designentscheidung.
Das Einsekundenproblem
Jedes führende Sprach-KI-System des Jahres 2026 basiert auf derselben Pipeline: automatische Spracherkennung (ASR) → Sprachmodell-Inferenz → Text-zu-Sprache-Synthese (TTS). Für textbasierte Interfaces funktioniert das gut. In einem echten Gespräch trägt diese Architektur jedoch eine unvermeidliche Annahme: Das System muss warten, bis der Nutzer zu Ende gesprochen hat, bevor es mit der Verarbeitung beginnt.
Diese Annahme erzeugt Latenz. Kein Netzwerkproblem, kein Mangel an Rechenkapazität. Die Architektur ist darauf ausgelegt, einen vollständigen Gesprächszug zu verarbeiten und dann eine vollständige Antwort auszugeben.
Forscher haben das jahrelang durch Patches umgangen: Sprachaktivitätserkennung (VAD), Unterbrechungsschwellenwerte, Gesprächspausenklassifikatoren. Jedes davon ist handgeschriebene Logik, die versucht, eine Frage zu beantworten, für die die Architektur nie ausgelegt war: Wann hat der Nutzer aufgehört zu sprechen?
Diese Patches machen Sprach-KI nutzbar. Wie ein echtes Gespräch fühlt es sich nie an.
Was Thinking Machines tatsächlich gebaut hat
Thinking Machines Lab wurde von Mira Murati, ehemaliger CTO von OpenAI, und John Schulman, ehemaliger OpenAI-Forscher, gegründet. Ihr erstes Modell fügt keinen weiteren Patch hinzu. Es gestaltet das Fundament neu.
TML-Interaction-Small ist ein Mixture-of-Experts-Modell mit 276 Milliarden Parametern, von denen bei jeder Inferenz nur 12 Milliarden aktiv sind.
Die entscheidende Abkehr von bestehenden Sprachsystemen: Es gibt keine Pipeline. Das Modell verarbeitet kontinuierlich Audio, Video und Text in parallelen 200-Millisekunden-Blöcken. Sprechen, Zuhören, die Entscheidung zu unterbrechen, zu schweigen — all das sind Entscheidungen auf Token-Ebene, die innerhalb des Modells getroffen werden, nicht durch externe Regeln gesteuert.
Thinking Machines nennt diese Kategorie “Interaction Model” im Gegensatz zum “Turn-based Model”, das heutige Sprach-APIs dominiert. Der Unterschied liegt nicht in der Geschwindigkeit, sondern darin, ob Interaktivität etwas ist, das das Modell gelernt hat oder das Ingenieure hineingeschrieben haben.
Das Unternehmen hat auch ein zweiteiliges System entwickelt: Das Interaction Model verwaltet den Live-Gesprächsstrom, während ein Hintergrundmodell asynchrone Schlussfolgerungen und Tool-Aufrufe übernimmt.
Was die Zahlen sagen
| Modell | Antwortlatenz | FD-bench V1.5 |
|---|---|---|
| TML-Interaction-Small | 0,40 Sek. | 77,8 |
| Google Gemini-3.1-flash-live | 0,57 Sek. | ca. 42 |
| OpenAI GPT-Realtime-2.0 | 1,18 Sek. | 46,8 |
Bei 0,40 Sekunden operiert TML-Interaction-Small nahe der natürlichen menschlichen Gesprächsgeschwindigkeit. Bei 1,18 Sekunden wirkt das Gegenüber nachdenklich. Der Erfahrungsunterschied zwischen diesen Werten ist viel größer, als die Zahlen vermuten lassen.
FD-bench V1.5 misst die Qualität von Full-Duplex-Interaktionen. TMLs Score von 77,8 ist fast doppelt so hoch wie der des nächsten Konkurrenten. Bei visuellen Interaktionstests beobachtet TML die Handlungen des Nutzers weiter und reagiert in Echtzeit, während es gleichzeitig spricht. Andere Modelle schweigen bei denselben Aufgaben oder antworten falsch.
TML erzeugt auch Rückkanalsignale (“Ich verstehe”, “Mm-hm”) ohne den Gesprächsfluss zu unterbrechen. In traditionellen Pipeline-Architekturen ist das kaum möglich: Das System muss erst einen vollständigen Zug abschließen, bevor es überhaupt etwas ausgeben kann.
Die bittere Lektion, wieder einmal
Im März 2019 veröffentlichte Reinforcement-Learning-Pionier Richard Sutton einen kurzen Aufsatz auf seiner persönlichen Website: “The Bitter Lesson.”
Seine zentrale These: Über siebzig Jahre KI-Forschung hinweg gewinnen letztlich immer allgemeine Methoden, die Rechenkapazität in großem Maßstab nutzen — keine domänenspezifischen Kenntnisse, die Forscher von Hand einprogrammieren.
Sein Beispiel war Schach. Forscher verbrachten Jahrzehnte damit, Schachwissen zu kodieren: Figurenbewertungsfunktionen, positionelle Heuristiken, Eröffnungstheorie. Das funktionierte, eine Weile. Deep Blue schlug Kasparov durch tiefere Suche und rohe Rechenpower. Dann machte AlphaGo all dieses Schachwissen durch Selbstspiel in einem einzigen Nachmittag obsolet.
Computer Vision folgte demselben Muster. Handgefertigte Merkmale, Kantenerkennung, Histogramm orientierter Gradienten — alles Standard bis AlexNet. AlexNet hatte kein besseres Feature-Engineering. Es skalierte nur die Berechnung.
Auch Spracherkennung. Regelbasierte Phonemmodelle, versteckte Markov-Ketten, sorgfältig abgestimmte Akustikmodelle. End-to-End-Neuronale-Netze ersetzten all das, nicht weil sie klüger über Sprache waren, sondern weil sie die Berechnung das erledigen ließen, was Ingenieure manuell gemacht hatten.
Suttons Schlussfolgerung: “Wir müssen die bittere Lektion lernen, dass das Einbauen dessen, wie wir denken, dass wir denken, langfristig nicht funktioniert.”
Sprach-KI hat gerade denselben Wendepunkt erreicht.
Warum Wissens-Engineering immer verliert
Traditionelle Sprach-KI modelliert Konversation durch die Frage: Welche Muster menschlicher Unterhaltung lassen sich als Regeln formulieren?
Schweigen über 300ms bedeutet, der Nutzer hat fertig. Steigende Intonation bedeutet eine Frage. Schnelleres Sprechen bedeutet Emotion.
Diese Regeln funktionieren im Labor. In der realen Welt versagen sie. Menschen machen Denkpausen. Manche sprechen monoton. Akzente variieren. Umgebungen sind laut. Regeln kodieren, was Ingenieure über Konversation beobachtet haben, nicht was Konversation tatsächlich ist.
Das tiefere Problem: Konversation ist dynamisch. Ihr Rhythmus, ihre Signale und Absichten entstehen aus dem Kontext, nicht aus statischen Mustern. Kein handgeschriebener Schwellenwert erfasst das.
TML-Interaction-Small schreibt keine Regeln. Das Modell inferiert kontinuierlich, was als Nächstes zu tun ist. Diese Fähigkeit wurde aus Daten und Rechenkapazität gelernt, nicht von Ingenieuren spezifiziert.
Diese Wahl hat kurzfristige Kosten: teurer im Training, schwieriger beim Debuggen, Fehlermuster weniger interpretierbar. Aber genau das ist der Trade-off, den Sutton beschrieben hat: kurzfristige Schwierigkeiten akzeptieren, Berechnung Probleme lösen lassen, die handgeschriebenes Wissen nicht kann.
Jedes Mal, wenn jemand diese Wette eingeht und sie aufgeht, wird es eine weitere Fußnote zur selben Lektion.
Was als Nächstes kommt
TML-Interaction-Small ist derzeit als Forschungsvorschau für eine begrenzte Anzahl von Partnern verfügbar, mit einer breiteren Veröffentlichung später im Jahr 2026. Thinking Machines hat größere Modelle angekündigt, vorbehaltlich der Lösung von Latenzproblemen bei größerem Maßstab.
Der Wettbewerbsdruck ist bereits spürbar. OpenAIs GPT-Realtime-2.0 erschien drei Tage früher und wurde sofort bei der Latenz übertroffen. Google Gemini Live hat Vorteile in der Breite mit 380 Stimmen in 75 Sprachen, liegt aber bei der Antwortgeschwindigkeit zurück.
Die Architekturentscheidung für Sprach-KI ist binär: Die Pipeline weiter patchen oder ein Modell trainieren, bei dem Interaktivität nativ ist. Das ist nicht nur eine technische Entscheidung. Es ist ein Bekenntnis dazu, ob man glaubt, dass die bittere Lektion hier gilt.
Murati und Schulman haben ihre Wette platziert. 0,40 Sekunden ist die bisherige Antwort.
Verwandte Artikel
Fable-5-Verbot Tag 7: Das Weiße Haus fordert Zero-Jailbreaks, Experten sagen technisch unmöglich
Tag 7 des Fable-5-Verbots: Das Weiße Haus fordert vollständige Jailbreak-Sicherheit vor dem Neustart. Sicherheitsexperten sind sich einig: Das ist technisch unmöglich für jedes Frontier-Modell, und Dario Amodei hat bereits beide Lösungsvorschläge der Regierung abgelehnt.
US-Regierung zwingt Anthropic zur Abschaltung von Fable 5 und Mythos 5: Ein „schmaler Jailbreak” legt die stärksten Modelle lahm
Das US-Handelsministerium ordnete die Sperrung von Anthropics leistungsstärksten Modellen Fable 5 und Mythos 5 an – ausgelöst durch einen engen Jailbreak mit Cybersicherheitsbezug. Anthropic folgte der Anweisung und widersprach ihr gleichzeitig.