Immer noch derselbe Witz

itten Sie ein beliebiges großes Sprachmodell, Ihnen einen Witz zu erzählen.

Nur zu. Öffnen Sie ChatGPT, Claude, Gemini — nehmen Sie Ihren Favoriten. Tippen Sie „erzähl mir einen Witz."

Sie bekommen etwas wie: „Warum vertrauen Wissenschaftler Atomen nicht? Weil sie alles erfinden."

Schon mal gehört? Natürlich. Sie haben ihn 2022 gehört, als ChatGPT zum ersten Mal erschien. Sie haben ihn 2023 gehört. 2024. Und Sie hören ihn immer noch, hier im Jahr 2026.

Andrej Karpathy — einer der Gründerköpfe hinter OpenAI, ehemaliger Leiter der KI-Abteilung bei Tesla — hat genau das im Podcast No Priors bemerkt. Trotz jahrelanger außerordentlicher Verbesserungen bei der Codegenerierung, mathematischem Denken und wissenschaftlicher Analyse erzählen große Sprachmodelle immer noch dieselben drei Witze wie bei ihrem ersten Erscheinen.

“„Obwohl sich die Modelle enorm verbessert haben — man fragt nach einem Witz und bekommt einen blöden Witz, einen miserablen Witz von vor fünf Jahren."”
— Andrej Karpathy, No Priors Podcast

Diese Beobachtung blieb bei mir hängen. Nicht weil sie witzig ist — sie ist das Gegenteil von witzig —, sondern weil sie etwas erklärt, das ich aus der ersten Reihe beobachte.

Seit 2023 halte ich einen Vortrag mit dem Titel „Vergangenheit, Gegenwart und Zukunft der Generativen KI." Ich habe ihn auf Konferenzen gehalten. In Vorstandsetagen. Kostenlos, so oft ich konnte, weil die meisten Menschen das Ausmaß dessen, was auf sie zukam, schlicht nicht begriffen hatten.

Jedes Mal habe ich die Folien aktualisiert. Neue Modelle. Neue Prognosen. Neue Benchmarks, die geknackt wurden.

Jetzt schreiben wir 2026. Fast zwei Jahre seit der letzten aufgezeichneten Version dieses Vortrags. Die Landschaft hat sich auf Weisen verschoben, die noch vor zwölf Monaten unmöglich erschienen wären.

Aber manches hat sich kein Stück verändert. Wie dieser Witz.

Die Tatsache, dass KI heute stundenlang produktionsreifen Code schreiben kann, ohne menschliche Aufsicht, aber immer noch keine brauchbare Pointe improvisieren kann — das ist keine nette Anekdote. Es ist ein Fenster in die wichtigste Frage der künstlichen Intelligenz: Wo verläuft die Grenze zwischen dem, was KI tatsächlich kann, und dem, was sie nur zu können scheint?

Diese Grenze hat einen Namen. Forscher nennen sie die Jagged Frontier — die gezackte Grenzlinie.

Sie zu verstehen ist der Unterschied zwischen Organisationen, die mit KI erfolgreich sind, und den 95 Prozent, die es nicht sind.

Die Hauptfiguren

In meinem Vortrag habe ich die Geschichte der generativen KI anhand von fünf Schlüsselfiguren erzählt. Jede steht für ein anderes Puzzleteil. Im Rückblick sagen uns ihre Vorhersagen — und wo diese Vorhersagen gelandet sind — mehr als jeder Benchmark-Wert.

Ray Kurzweil veröffentlichte 2005 Singularity is Near und prognostizierte, dass KI die menschliche Intelligenz bis 2029 übertreffen und Menschen bis 2045 mit KI verschmelzen würden. Bei einer Selbstevaluation 2010 behauptete er eine Trefferquote von 86 Prozent. Seine Fortsetzung, Singularity is Nearer, erschien 2024 mit kaum angepassten Daten — aus 2029 wurde 2030.

Das Menschlichste an Kurzweil hat nichts mit Zeitplänen zu tun. Sein Vater starb 1970. Seitdem sammelt Ray jeden Brief, jedes Dokument, jedes Foto, das sein Vater hinterlassen hat. Er glaubt, dass eine KI eines Tages alles über seinen Vater wissen wird — und ihm auf gewisse Weise ähnlicher sein wird, als sein Vater sich selbst ähnlich war.

Das ist keine technologische Vorhersage. Es ist ein Gebet im Gewand einer Prognose.

Ben Goertzel hat den Begriff AGI populär gemacht und seine gesamte Karriere damit verbracht, für eine künstliche Intelligenz zu plädieren, die nicht nur intelligent, sondern auch mitfühlend ist. Er war Mitschöpfer des Roboters Sophia, baute den dezentralen KI-Marktplatz SingularityNET und prognostiziert menschenähnliche AGI bis Anfang der 2030er-Jahre.

“„Wenn wir wollen, dass Maschinen unsere Partner sind, müssen wir sie dazu erziehen, unsere Freunde zu sein."”
— Ben Goertzel

Die Idee klingt 2026 fast naiv, in einer Zeit, in der Benchmark-Ergebnisse und Enterprise-Verträge den Großteil der KI-Entwicklung antreiben. Aber Goertzels Frage — welche Art von Intelligenz bauen wir eigentlich? — ist relevanter denn je.

Demis Hassabis war mit 13 Schachmeister, entwickelte mit 17 das Hitspiel Theme Park und gründete 2010 DeepMind mit. Google erwarb das Unternehmen 2014 für 500 Millionen Dollar. Unter Hassabis' Führung brachte DeepMind AlphaGo und AlphaFold hervor — und etwas weniger Spektakuläres, aber Wichtigeres: ein Rahmenwerk zur Messung von AGI selbst.

Auf dieses Rahmenwerk komme ich noch zurück. Es erweist sich als eines der nützlichsten Werkzeuge, um durch den Lärm hindurchzuschneiden.

Und dann ist da die Freundschaft, die zerbrach.

Elon Musk und Larry Page waren 2012 enge Freunde. In ihren nächtlichen Gesprächen wurde Musk zunehmend alarmiert, dass Page — der Mitgründer von Google, jener Firma, die gerade DeepMind übernommen hatte — die KI-Sicherheit nicht ernst genug nahm. Page nannte Musk einen „Speziesisten". Jemand, dem Menschen wichtiger seien als KI als neue Intelligenzform.

Das war der Bruchpunkt. 2015 warb Musk den KI-Forscher Ilya Sutskever von Google ab und gründete OpenAI als direktes Gegengewicht zu Googles wachsender KI-Macht.

Was uns zu Sam Altman bringt, der 2019 die Rolle des CEO bei OpenAI übernahm und dessen Wandlung von einem gemeinnützigen Forschungslabor zur folgenreichsten KI-Firma der Welt leitete. GPT-3, DALL-E, GPT-4, die Reasoning-Modelle, die alles veränderten — alles unter Altmans Führung.

Ebenfalls unter seiner Führung: der Wechsel zum „gedeckelten Gewinn"-Modell, wachsende Bedenken bezüglich Transparenz und der bizarre Vorstandsputsch im November 2023, der ihn kurzzeitig absetzte, bevor er Tage später zurückkehrte.

Diese fünf Handlungsstränge — der Visionär, der Idealist, der Erbauer, der Beschützer und der Stratege — bereiteten die Bühne für das, was folgte.

Und was folgte, bewegte sich schneller, als irgendeiner von ihnen vorhergesagt hatte.

Die Bilanz

Als ich den Vortrag im Juni 2024 hielt, war das KI-Wettrüsten in vollem Gange. Google hatte Gemini gestartet. Meta hatte den Schwenk vom Metaverse zu Open-Source-AGI vollzogen. Microsoft hatte Copilot überall. Anthropic hatte Claude 3. Und Elon Musks xAI hatte gerade 6 Milliarden Dollar eingesammelt, um die Gigafabrik der Rechenleistung zu bauen.

In meinem Vortrag teilte ich Musks Vorhersage — wenige Wochen zuvor geäußert —, dass AGI „nächstes Jahr" kommen würde. Das wäre 2025 gewesen.

Es kam nicht.

Musk baute Colossus, einen Supercomputer mit 200.000 GPUs in Memphis, Tennessee. Vom Konzept bis zum Betrieb vergingen 122 Tage — 92 Tage später hatte er sich verdoppelt. Eine Ingenieurleistung nach jedem Maßstab.

Aber der größte KI-Supercomputer der Welt erzeugte keine AGI. Ende 2025 sagte Musk dem xAI-Team, es bestehe eine „zehnprozentige Wahrscheinlichkeit", sie mit Grok 5 zu erreichen. Anfang 2026 verschob er seine Prognose stillschweigend auf nächstes Jahr. Wieder einmal.

Es geht hier nicht darum, dass Musk falsch lag. Es geht um die Kluft zwischen Infrastruktur und Intelligenz. Man kann den größten Computer der Welt bauen und ihn mit mehr GPUs bestücken, als sich jemand vorstellen konnte. Intelligenz — echte, allgemeine Intelligenz — entsteht nicht allein dadurch, dass man mehr Hardware auf das Problem wirft.

Jahrelang operierte die Branche auf der Grundlage eines einfachen Glaubenssatzes: der Skalierungsgesetze. 2020 zeigten OpenAI-Forscher, dass sich die Modellleistung vorhersagbar mit mehr Rechenleistung, Daten und Parametern verbessert. DeepMind verfeinerte die Mathematik 2022. Die Implikation war berauschend — mach es einfach größer, und es wird intelligenter.

Dieser Glaube trieb die Milliarden an, die in GPU-Cluster flossen. Deshalb existiert Colossus.

Dann begannen die Erträge zu sinken.

Orion — OpenAIs interner Plan für GPT-5 — wurde stillschweigend zu GPT-4.5 herabgestuft, nachdem der erwartete Leistungssprung ausblieb. Es erreichte GPT-4-Niveau bereits nach 20 Prozent des Trainings, aber die verbleibenden 80 Prozent zeigten abnehmende Erträge. Fortune berichtete im Februar 2025, Altman habe „effektiv eingestanden, dass die Skalierungstechnik keinen ausreichend großen Leistungsschub mehr lieferte."

Auf der NeurIPS 2024 sprach Ilya Sutskever — derselbe Forscher, den Musk von Google abgeworben hatte, um OpenAI mitzugründen — ein nüchternes Urteil:

“„Das Pre-Training, wie wir es kennen, wird unzweifelhaft enden. Daten sind das fossile Brennmaterial der KI. Wir haben nur ein Internet."”
— Ilya Sutskever, NeurIPS 2024

Die Skalierungsgesetze sind nicht zusammengebrochen. Aber die Richtung des Skalierens hat sich verschoben.

Statt größerer Modelle, die auf mehr Daten trainiert werden, kam der Durchbruch dadurch, den Modellen mehr Zeit zum Nachdenken zu geben. OpenAI-Forscher Noam Brown entdeckte, dass 20 Sekunden Reasoning eines Modells denselben Leistungsgewinn erzielten wie eine 100.000-fache Skalierung des Modells. „Ich dachte buchstäblich, es sei ein Bug", sagte er.

Deshalb waren o1 und o3 Durchbrüche — nicht wegen umfangreicherer Pre-Training-Läufe, sondern wegen einer neuen Dimension: Inference-Time Compute. Die Modelle denken zum Zeitpunkt der Nutzung nach, anstatt während des Trainings mehr Wissen in sie hineinzustopfen.

Die Laborchefs sind sich noch immer nicht einig, was das bedeutet. Altman sagt, die Skalierungsgesetze gelten „absolut" weiterhin. Amodei sagt, Anthropic sehe „keine Mauer." Hassabis meint, Skalierung bringe uns ungefähr 50 Prozent des Weges zu AGI — ein oder zwei weitere Durchbrüche seien nötig. Sutskever sagt, das „Zeitalter des Skalierens" sei vorbei und wir befänden uns „zurück im Zeitalter der Forschung, nur mit großen Computern."

Die Daten von Epoch AI deuten auf eine Auflösung hin: Die Verbesserung der Fähigkeiten beschleunigt sich — 1,85-mal schneller seit April 2024 —, aber die Beschleunigung kommt aus Reasoning und Reinforcement Learning, nicht aus größeren Pre-Training-Läufen. Etwas skaliert weiterhin. Nur ist es nicht mehr dasselbe, was vorher skalierte.

In der Zwischenzeit ist noch einiges passiert.

Reasoning-Modelle haben geliefert. Die veränderte Skalierungsrichtung brachte konkrete Ergebnisse. Bis Dezember 2024 erzielte o3 75,7 Prozent auf ARC-AGI-1 — einem Test, bei dem GPT-4o kaum fünf Prozent schaffte.

KI-Agenten wurden real. Keine Vorhersage mehr, sondern eine tatsächliche Veränderung in der Art, wie Software gebaut wird. Karpathy beschreibt den Wandel von 80 Prozent eigenem Code auf praktisch null seit Dezember 2025. „Ich glaube nicht, dass ich seit Dezember auch nur eine Zeile Code selbst getippt habe", sagte er. Ich kann das aus eigener Erfahrung bestätigen. Bei Orange Hill hat unser gesamtes Entwicklerteam denselben Wechsel vollzogen — wir delegieren an Agenten, prüfen deren Output und orchestrieren, statt selbst zu tippen. Die Veränderung kam abrupt und war total.

Die Kosten sind eingebrochen. Das Leistungsäquivalent von GPT-3.5 fiel von 20 Dollar pro Million Token im November 2022 auf 0,07 Dollar pro Million Token im Oktober 2024. Eine 280-fache Reduktion in 18 Monaten. Das ist wichtiger als die meisten Benchmark-Werte, denn es macht KI in großem Maßstab einsetzbar.

Das KI-Paradox

$37 Mrd.

Unternehmensausgaben für KI 2025

95 %

KI-Pilotprojekte ohne Wirkung

280×

Kostenreduktion in 18 Monaten

6×

Produktivitätsvorsprung der Power-User

Quellen: MIT State of AI in Business 2025, Epoch AI, OpenAI Enterprise Data

Die Unternehmensausgaben haben sich verdreifacht. Firmen steckten 2025 insgesamt 37 Milliarden Dollar in generative KI, gegenüber 11,5 Milliarden im Vorjahr.

Aber hier ist die Zahl, die wirklich zählt: 95 Prozent der KI-Pilotprojekte in Unternehmen konnten keine messbare Geschäftswirkung erzielen, so der MIT-Bericht State of AI in Business 2025.

Lesen Sie das nochmal. 37 Milliarden Dollar ausgegeben. 95 Prozent Misserfolg.

Diese Unternehmen scheitern nicht, weil die Technologie nicht funktioniert. Sie scheitern, weil sie nicht verstehen, wo sie funktioniert und wo nicht.

Die Jagged Frontier

2023 führten Forscher von Harvard und der Boston Consulting Group ein Feldexperiment durch. Sie gaben 758 BCG-Beratern Zugang zu GPT-4 und maßen, was passierte.

Die Ergebnisse waren seltsam.

Bei manchen Aufgaben — kreative Ideenfindung, Datenanalyse, überzeugendes Schreiben — waren die Berater mit KI dramatisch produktiver. Höhere Qualität, weniger Zeitaufwand.

Bei anderen Aufgaben — Aufgaben, die für einen menschlichen Beobachter gleich komplex wirkten — machte die KI sie schlechter. Berater, die sich auf die KI-Ergebnisse verließen, schnitten schlechter ab als jene, die sie gar nicht nutzten.

Ethan Mollick, der Wharton-Professor, der die Studie mitgeleitet hatte, prägte den Begriff „Jagged Technological Frontier" — gezackte technologische Grenzlinie — für das, was sie gefunden hatten. KI hat keine glatte Fähigkeitskurve, die vorhersagbar ansteigt. Sie hat eine gezackte — übermenschlich bei manchen Dingen, peinlich schlecht bei anderen, ohne zuverlässige Möglichkeit vorherzusagen, was was ist.

“„KI kann manche Aufgaben unglaublich gut und andere unglaublich schlecht erledigen, auf eine Weise, die sich nicht gut mit unserer menschlichen Intuition für die Schwierigkeit einer Aufgabe deckte."”
— Ethan Mollick, Wharton School

Bis 2026 ist die Jagged Frontier nicht verschwunden. Aber wir verstehen ihre Form sehr viel besser.

Karpathy brachte es auf den Punkt: „Ich habe gleichzeitig das Gefühl, mit einem extrem brillanten Doktoranden zu sprechen, der sein ganzes Leben Systemprogrammierer war, und mit einem Zehnjährigen."

Diese Metapher trifft, weil jeder, der diese Werkzeuge nutzt, sie erlebt hat. Man ist fassungslos über das, was die KI gerade geleistet hat — aufrichtig, mit offenem Mund —, und fünf Minuten später tut sie etwas so offensichtlich Falsches, dass man sich fragt, ob sie überhaupt irgendetwas verstanden hat.

Warum? Warum sollte ein System, das fortgeschrittene Mathematik löst, eleganten Code schreibt und medizinische Prüfungen besteht, an Aufgaben scheitern, die ein Kind bewältigen könnte?

Lange hatte niemand eine befriedigende Antwort. Forscher beschrieben die Jagged Frontier, erklärten sie aber nie.

Dann erklärte Karpathy sie. Und die Erklärung ist einfach.

Warum der Witz nie besser wird

Hier ist der Mechanismus.

Moderne LLMs werden mit Reinforcement Learning trainiert. Nach der initialen Pre-Training-Phase — in der das Modell Sprache aus riesigen Textmengen lernt — nutzen die Labore RL, um das Modell bei spezifischen Aufgaben besser zu machen.

„Es liegt daran, dass es außerhalb des RL ist", sagte Karpathy. „Außerhalb des Reinforcement Learning. Außerhalb dessen, was verbessert wird."

Deshalb überlebt der Atome-Witz. Kein Labor optimiert für Witzqualität. Nicht weil es nicht möglich wäre, sondern weil die Optimierungsmaschinerie nicht weiß, wie man „lustig" misst. Was sie nicht messen kann, kann sie nicht verbessern.

In einem separaten Interview im Dwarkesh Podcast beschrieb Karpathy RL als „Supervision durch einen Strohhalm saugen." Die gesamte Trajektorie einer Lösung — jede Entscheidung, die das Modell unterwegs getroffen hat — wird zu einem einzigen binären Signal komprimiert: richtig oder falsch. Jeder Schritt in Richtung der korrekten Antwort wird als korrekt bewertet, selbst wenn die Schlussfolgerung fehlerhaft war und das Modell einfach Glück hatte.

Die Konsequenz: „Alle Samples, die man von Modellen bekommt, sind stillschweigend kollabiert. Sie besetzen einen winzigen Manifold des möglichen Raums."

Die Outputs des Modells wirken an der Oberfläche vielfältig, sind aber in ein schmales Band gepresst. Deshalb erzählen alle LLMs dieselben Witze, verwenden dieselben Wendungen und konvergieren zu denselben Mustern. Die RL-Optimierung gräbt tiefe Rillen, und das Modell fährt in diesen Rillen, selbst wenn es explorieren sollte.

Das ist der Motor hinter der Jagged Frontier.

Innerhalb der RL-Grenze — Mathematik, Code, Benchmarks, alles mit verifizierbaren Antworten — verbessern sich Modelle in atemberaubendem Tempo. Bei den Aufgaben, die RL optimieren kann, steigen diese Systeme schneller als je zuvor.

Außerhalb der RL-Grenze — Humor, gesunder Menschenverstand, kreative Vielfalt, soziales Urteilsvermögen — ist der Fortschritt im Wesentlichen null.

“„Man ist entweder auf Schienen und Teil der Superintelligenz-Kreisläufe, oder man ist nicht auf Schienen und außerhalb der verifizierbaren Domänen, und plötzlich mäandert alles irgendwie vor sich hin."”
— Andrej Karpathy

Die Jagged Frontier ist nicht zufällig. Sie ist eine Karte dessen, was Reinforcement Learning erreichen kann und was nicht.

Der Benchmark-Friedhof

Die RL-Grenze führt zu einem Problem, über das die Branche nicht ausreichend spricht.

Als GPT-3 zum ersten Mal den MMLU-Test absolvierte — eine breite Multiple-Choice-Prüfung über 57 akademische Fächer —, erzielte es 35 Prozent. Der Test war darauf ausgelegt, allgemeines Wissen und Reasoning zu messen, und 35 Prozent lagen kaum über dem Zufallsniveau.

Bis 2026 erreichen die neuesten Modelle 99 Prozent.

Der Test ist funktional nutzlos.

Der Benchmark-Friedhof

99 %

MMLU — gesättigt von 35 %

0 %

ARC-AGI-2 — reine LLMs

48,9 Pp.

GPQA-Sprung in einem Jahr

67,3 Pp.

SWE-bench-Sprung

Quellen: Epoch AI, ARC Prize Foundation

Dieselbe Geschichte wiederholt sich quer durch die Bank. HumanEval, das die Codegenerierung testet, ist bei 91 bis 95 Prozent gesättigt. GPQA, eine naturwissenschaftliche Prüfung auf Graduiertenniveau, sprang um 48,9 Prozentpunkte in einem einzigen Jahr. SWE-bench, der reale Software-Engineering-Fähigkeiten misst, legte um 67,3 Punkte zu.

Modelle knacken Benchmarks, die jahrelang halten sollten, innerhalb weniger Monate.

Das sieht nach außerordentlichem Fortschritt aus. Und teilweise ist es das auch. Doch Karpathy identifizierte ein kritisches Problem: „Benchmarks sind nahezu von Natur aus verifizierbare Umgebungen und damit sofort anfällig für RLVR."

RLVR — Reinforcement Learning with Verifiable Rewards — ist exakt der Mechanismus hinter der Jagged Frontier. Benchmarks haben klare richtige Antworten, was sie zu perfekten Zielen für RL-Optimierung macht. Labore konstruieren Trainingsumgebungen, die den Benchmark-Aufgaben nahekommen, durch synthetische Datengenerierung. Sie trainieren nicht buchstäblich auf dem Test. Aber sie trainieren auf Aufgaben, die so ähnlich sind, dass die Benchmark-Werte unabhängig davon in die Höhe schießen.

Das ist Goodharts Gesetz: Wenn ein Maß zum Ziel wird, hört es auf, ein gutes Maß zu sein.

Es gibt eine aufschlussreiche Fallstudie. Forscher stellten fest, dass GPT-4 Programmieraufgaben von Codeforces lösen konnte, die vor seinem Trainingsdaten-Stichtag veröffentlicht wurden, aber bei Aufgaben danach scheiterte. Es durchdachte die Probleme nicht. Es hatte die Muster gespeichert.

Also kreiert die Branche schwierigere Benchmarks. Die Modelle knacken auch diese. Und der Kreislauf wiederholt sich.

Der jüngste Eintrag in diesem Wettrüsten ist ARC-AGI-2, entwickelt von François Chollet — demselben Forscher, der Keras geschaffen hat, eine der meistgenutzten Deep-Learning-Bibliotheken.

ARC-AGI-2 testet etwas Spezifisches: die Fähigkeit, neuartige visuelle Rätsel zu lösen, die echtes Reasoning erfordern, nicht Mustererkennung. Jedes Rätsel verlangt, unbekannte Regeln aus Beispielen zu interpretieren und anzuwenden — etwas, das Menschen ganz natürlich tun.

Die Ergebnisse sind ernüchternd.

Reine LLMs erzielen 0 Prozent bei ARC-AGI-2. Null.

Das beste System — eine aufwändig konstruierte Lösung mit Gemini 3 und umfangreichem Scaffolding — erreichte 54 Prozent bei 31 Dollar pro Aufgabe. Durchschnittliche Menschen erzielen nahe 100 Prozent, wobei jede Aufgabe von mindestens zwei menschlichen Teilnehmern in weniger als zwei Versuchen gelöst werden konnte.

Zur Einordnung: In der Vorgängerversion hatte OpenAIs o3 bei 4.560 Dollar Rechenkosten pro Aufgabe 87,5 Prozent erzielt. Als eine schwierigere Version des Tests herauskam, brachen die Ergebnisse ein.

Chollets Einschätzung: „Die aktuelle KI-Reasoning-Leistung ist an das Modellwissen gebunden." Wenn der Test außerhalb dessen liegt, wovon das Modell Variationen gesehen hat, versagt es.

Wie ich in meinem Vortrag immer sagte: Wenn ein LLM einen Test lösen kann, heißt das nicht, dass es das gelöst hat, was der Test misst.

Stufe eins von fünf

Wo stehen wir also wirklich?

2023 veröffentlichte DeepMind ein Paper, das etwas Nützliches tat. Anstatt AGI binär zu behandeln — man hat es oder man hat es nicht —, schufen sie ein Rahmenwerk mit fünf Stufen.

Leistung × Generalität	Eng klar abgegrenzter Aufgabenbereich	Allgemein breites Spektrum nicht-physischer Aufgaben, einschließlich metakognitiver Fähigkeiten wie dem Erlernen neuer Fertigkeiten
Stufe 0: Keine KI	Taschenrechner, Compiler	Human-in-the-Loop-Computing (z. B. Amazon Mechanical Turk)
Stufe 1: Aufkeimend gleich oder etwas besser als ein ungelernter Mensch	GOFAI, einfache regelbasierte Systeme (z. B. SHRDLU)	ChatGPT, Bard, Llama 2
Stufe 2: Kompetent mindestens 50. Perzentil qualifizierter Erwachsener	Siri, Alexa, Google Assistant; Watson; SOTA-LLMs für Teilaufgaben (kurze Essays, einfaches Programmieren)	Noch nicht erreicht
Stufe 3: Experte mindestens 90. Perzentil qualifizierter Erwachsener	Grammarly; generative Bildmodelle (Imagen, DALL-E 2)	Noch nicht erreicht
Stufe 4: Virtuose mindestens 99. Perzentil qualifizierter Erwachsener	Deep Blue, AlphaGo	Noch nicht erreicht
Stufe 5: Übermenschlich übertrifft 100 % der Menschen	AlphaFold, AlphaZero, StockFish	Künstliche Superintelligenz (ASI) Noch nicht erreicht

Diese Stufen werden entlang zweier Dimensionen gemessen: Leistung und Generalität.

Bei engen Aufgaben befinden wir uns bereits auf Stufe 5. AlphaFold sagt Proteinstrukturen besser vorher als jeder Mensch. KI-Systeme diagnostizieren bestimmte Krebsarten präziser als erfahrene Radiologen. Codegenerierungsmodelle übertreffen die meisten Programmierer bei klar definierten Aufgaben.

Aber bei allgemeiner Intelligenz — der Fähigkeit, beliebige kognitive Aufgaben zu bewältigen — sitzen die aktuellen Frontier-Modelle auf Stufe 1.

Aufkeimend.

Stufe 1 bedeutet: ungefähr so gut wie jemand, der eigentlich nicht weiß, was er tut, aber über ein breites Aufgabenspektrum hinweg.

Das ist die ehrliche Einschätzung. Die ausgereiftesten KI-Systeme der Welt haben das kognitive Niveau eines wohlmeinenden Anfängers erreicht, dem manchmal etwas gelingt.

Dieses Rahmenwerk durchschneidet den Hype auf eine Weise, die rohe Benchmark-Werte nie konnten.

Wenn Musk „AGI nächstes Jahr" sagt, impliziert er, dass wir von Stufe 1 springen auf... was? Stufe 3? Stufe 5? In zwölf Monaten?

Wenn Kurzweil AGI bis 2030 prognostiziert, meint er eine KI, die mindestens auf Expertenniveau quer über das gesamte Spektrum menschlicher kognitiver Aufgaben agiert. Wir stehen bei Stufe 1 allgemein und Stufe 5 bei einer Handvoll enger Aufgaben.

Karpathys Einschätzung ist gemäßigter. Über das gesamte Jahr 2025 hinweg beschrieb er AGI durchgängig als etwa ein Jahrzehnt entfernt. „Die Probleme sind lösbar", sagte er. „Sie sind überwindbar. Aber sie sind immer noch schwierig."

Er unterscheidet zwischen dem „Jahr der Agenten" — das die Branche 2024 ausrief — und dem „Jahrzehnt der Agenten", in dem wir seiner Meinung nach leben. Die Werkzeuge funktionieren. Sie sind transformativ. Aber die Kluft zwischen „beeindruckender Demo" und „zuverlässigem autonomem System" bemisst sich in Jahren des Engineerings, nicht in Monaten des Hypes.

Die ARC-AGI-2-Ergebnisse bestätigen das. Entfernen Sie das Scaffolding, das Prompt-Engineering, die rechenintensiven Reasoning-Schleifen. Testen Sie das nackte Modell an neuartigen Problemen.

Null Prozent.

Die Jagged Frontier ist nicht nur horizontal gezackt — gut bei manchen Aufgaben, schlecht bei anderen. Sie ist auch vertikal gezackt. Stufe 5 eng, Stufe 1 allgemein.

Die KI ist gleichzeitig übermenschlich und unter-kompetent. Die Herausforderung besteht darin zu wissen, welches von beidem Sie in jedem Moment bekommen.

Was sich tatsächlich verbessert

Ich habe den Großteil dieses Artikels dem gewidmet, was KI nicht kann. Das war Absicht. Die Grenzen zu verstehen ist das Wertvollste, was ich anbieten kann, denn die Fähigkeiten sind offensichtlich — Sie erleben sie jeden Tag.

Aber diese Fähigkeiten sind real und beschleunigen sich.

Der Fähigkeitsindex von Epoch AI zeigt einen klaren Wendepunkt im April 2024. Vor diesem Datum verbesserten sich die Fähigkeiten um 8,3 ECI-Punkte pro Jahr. Danach sprang die Rate auf 15,5 Punkte pro Jahr — eine 1,85-fache Beschleunigung.

Was war der Auslöser? Reasoning-Modelle.

Als OpenAI o1 veröffentlichte, führte es einen grundlegend anderen Ansatz ein: Statt sofort eine Antwort zu generieren, erzeugt das Modell zunächst eine Reasoning-Kette und durchdenkt das Problem Schritt für Schritt. Das klingt einfach. War es nicht. Es erforderte neue Trainingsmethoden, neue Infrastruktur und neue Wege der Ergebnisbewertung.

Das Ergebnis war eine dramatische Verbesserung bei Aufgaben, die mehrstufiges logisches Denken erfordern. Bis 2026 hat jedes große Labor Reasoning-Modelle. Claude denkt nach, bevor es antwortet. Gemini hat seinen Reasoning-Modus. DeepSeek R1 bewies, dass man Frontier-Level-Reasoning zu einem Bruchteil der Rechenkosten erreichen kann.

Und dann sind da die Agenten.

In meinem Vortrag 2024 sagte ich voraus, dass KI-Agenten die nächste große Entwicklung sein würden — Systeme, die mehrstufige Aufgaben autonom erledigen. Diese Vorhersage traf ein.

Karpathy beschreibt den Wandel: Er betreibt jetzt mehrere KI-Agenten parallel — einer recherchiert, einer schreibt Code, einer plant — und orchestriert sie wie ein Team. „Es geht nicht um eine einzelne Sitzung mit dem Agenten", sagte er. „Mehrere Agenten, wie sie zusammenarbeiten und wie man sich in viel größeren Makroaktionen bewegt."

Das ist keine Science-Fiction. Es passiert gerade, in Tausenden von Entwicklerteams. Der Wechsel von „KI als Autovervollständigung" zu „KI als autonomer Mitarbeiter" ist die bedeutendste praktische Veränderung seit dem Start von ChatGPT.

Und die Kostenkurve macht all das mit jedem Monat zugänglicher. Als ich anfing, meinen Vortrag zu halten, war der Einsatz von GPT-4 für Enterprise-Arbeit unerschwinglich. Heute kostet die gleiche Leistung 280-mal weniger als vor 18 Monaten.

Hier ist, was ich als Nächstes erwarte.

Die Jagged Frontier wird nicht verschwinden. Aber sie wird sich glätten — allmählich, ungleichmäßig, auf Weisen, die bedeutsam sind. Jedes Mal, wenn Forscher herausfinden, wie sie eine neue Domäne verifizierbar machen, wie sie Belohnungssignale für Aufgaben schaffen, die bisher keine hatten, springt die RL-Maschinerie an und diese Domäne verbessert sich rapide.

Mollicks Einsicht ist hier hilfreich: „Schauen Sie nicht auf die Benchmarks. Schauen Sie auf die Engpässe."

Wenn ein Engpass bricht — wenn eine Fähigkeit, die feststeckte, plötzlich nach vorne springt — kann das über Nacht ganze Kategorien von Anwendungen freischalten. Googles Durchbruch in der Bildgenerierungsqualität hat nicht bloß bessere Bilder hervorgebracht. Er hat jedes Werkzeug aufgewertet, das Bilder nutzt: Präsentationen, Dokumente, Design-Workflows.

Das Rennen geht nicht darum, ob KI weiter besser wird. Das wird sie. Die Frage ist: Welche Engpässe brechen als Nächstes? Und sind Sie positioniert, um zu handeln, wenn es so weit ist?

Die Frage am Ende

Ich habe meinen Vortrag immer auf dieselbe Weise beendet.

Nach dem Durchgang durch die Protagonisten, das Wettrüsten, die Prognosen, die Auswirkungen auf Unternehmen, Gesellschaft und Individuen — nach Job-Verdrängung, bedingungslosem Grundeinkommen, KI in Robotergestalt und den theoretischen Zukünften der Superintelligenz — schließe ich mit zwei Fragen.

Ist Intelligenz eine emergente Eigenschaft aller Materie?

Ist Liebe eine emergente Eigenschaft jeder Intelligenz?

Ich habe diese Fragen nie geändert. Kein einziges Mal, in keiner Version des Vortrags. Weil es die Fragen sind, die immer noch keine Antworten haben, selbst wenn sich alles andere unter unseren Füßen verschiebt.

Heute fühlen sie sich noch eindringlicher an.

Wir haben Systeme gebaut, die 99 Prozent in Tests erzielen, die Intelligenz messen sollen. Dieselben Systeme erzielen 0 Prozent, wenn der Test sich auf Weisen ändert, mit denen jeder Mensch mühelos zurechtkäme. Sie denken sich durch komplexe Mathematik, können aber keinen Witz erzählen, der nicht schon tausendmal erzählt wurde.

Die Intelligenz, die wir gebaut haben, ist real. Aber sie ist auch radikal unvollständig.

Sie knackt Benchmarks, kann aber außerhalb ihrer Trainingsschienen nicht operieren. Sie beschleunigt menschliche Fähigkeiten um Größenordnungen, scheitert aber in 95 Prozent der Fälle, wenn Organisationen versuchen, sie im großen Maßstab einzusetzen. Sie steht auf Stufe 1 eines fünfstufigen Rahmenwerks, das ihre eigenen Schöpfer entworfen haben — mächtig genug, um Branchen zu transformieren, aber nirgendwo in der Nähe dessen, was irgendjemand von uns meint, wenn wir „Intelligenz" sagen.

Wenn Intelligenz eine emergente Eigenschaft aller Materie ist — wenn sie natürlich aus hinreichender Komplexität entsteht —, dann sollten wir erwarten, dass KI irgendwann die Qualitäten entwickelt, die wir mit allgemeiner Intelligenz verbinden. Humor. Gesunden Menschenverstand. Die Fähigkeit, über nie zuvor Gesehenes nachzudenken. Kreative Überraschung. Urteilsvermögen.

Aber die Befunde von der Jagged Frontier deuten darauf hin, dass Intelligenz nicht gleichmäßig entsteht. Sie entsteht in den Richtungen, für die man optimiert. Überall sonst bleibt sie eingefroren.

Und Liebe? Mitgefühl? Die Qualitäten, für die Ben Goertzel seine gesamte Karriere lang argumentiert hat, dass sie von Grund auf in KI eingebaut werden müssen?

Die liegen noch weiter jenseits der RL-Grenze als Witze.

Was eine Frage aufwirft, die ich mir wünschte, die Frontier-Labore würden sie ernst nehmen. Wir haben gesehen, was passiert, wenn man für Mathematik optimiert — Modelle werden in Mathematik übermenschlich. Wir haben gesehen, was passiert, wenn man für Code optimiert — Modelle schreiben besseren Code als die meisten Menschen. Jedes Mal, wenn RL auf eine Domäne gerichtet wird, explodiert diese Domäne vor Fähigkeit.

Was also würde geschehen, wenn wir es auf Empathie richteten? Auf Nuance? Auf die Art moralischen Denkens, die erfordert, zwei widersprüchliche Wahrheiten gleichzeitig auszuhalten? Wir haben es nie versucht — nicht mit derselben Intensität, denselben Rechenbudgets, demselben Engineering-Fokus. Wir haben keine Ahnung, welche emergenten Eigenschaften erscheinen könnten, wenn wir für Mitgefühl mit derselben Rigorosität optimierten, mit der wir für Code-Vervollständigung optimieren.

Vielleicht nichts. Oder vielleicht etwas Unvorhersehbares — so wie niemand vorhergesehen hatte, dass Training auf Code das logische Denken verbessern würde, oder dass Chain-of-Thought mathematische Fähigkeiten freischalten würde, die Brute-Force-Skalierung nicht erreichen konnte.

Die Labore werden es nicht von allein tun. Es gibt keine Rangliste für Güte. Keinen Benchmark für Weisheit. Aber wenn dieser Artikel eines gezeigt hat, dann dies: Die Gestalt der KI ist nicht unvermeidlich — sie ist ein direktes Abbild dessen, was wir zu messen und zu belohnen wählen. Derzeit bauen wir Intelligenz nach unserem eigenen Bild: brillant in den Dingen, die wir bewerten können, gleichgültig gegenüber allem anderen.

Wir befinden uns an einem außergewöhnlichen Punkt. Die Werkzeuge sind leistungsfähiger als je zuvor und zugleich eingeschränkter, als die meisten Menschen ahnen. Die Organisationen, die gedeihen werden, sind jene, die beide Seiten dieser Gleichung verstehen — die die Jagged Frontier klar genug sehen, um zu wissen, wo sie hintreten können und wo nicht.

Ich habe die letzten drei Jahre damit verbracht, Organisationen durch dieses Terrain zu führen. Die Kluft zwischen dem, was KI in einer Demo leisten kann, und dem, was sie in Ihrem Unternehmen leisten kann, ist der Ort, an dem die eigentliche Arbeit stattfindet.

In dieser Kluft lebe ich. Deshalb aktualisiere ich den Vortrag immer weiter.

Und irgendwo da draußen erzählt ein LLM immer noch denselben Witz über Atome.

Immer noch derselbe Witz

Die Hauptfiguren

Die Bilanz

Das KI-Paradox

Die Jagged Frontier

Warum der Witz nie besser wird

Der Benchmark-Friedhof

Der Benchmark-Friedhof

Stufe eins von fünf

Was sich tatsächlich verbessert

Die Frage am Ende

Hat sich's gelohnt?

Kommentare

Am Puls der Zeit

Verwandte Artikel

Der Mac mini in Belgrad hat einen Namen

Denken ohne Worte

Mythos