amoli bilo koji veliki jezički model da ti ispriča vic.

Samo napred. Otvori ChatGPT, Claude, Gemini... izaberi koji hoćeš. Ukucaj „ispričaj mi vic."

Dobićeš nešto ovako: „Zašto naučnici ne veruju atomima? Zato što sve izmišljaju."

Čuo si to već? Naravno da jesi. Čuo si to 2022. kad se ChatGPT tek pojavio. Čuo si to 2023. I 2024. I dalje to slušaš danas, 2026.

Andrej Karpati, jedan od osnivača OpenAI-ja, bivši šef AI-ja u Tesli, upravo je to primetio u podkastu No Priors. Uprkos godinama izvanrednog napretka u generisanju koda, matematičkom rezonovanju i naučnoj analizi, veliki jezički modeli i dalje pričaju ista tri vica kao kad su se prvi put pojavili.

„Iako su se modeli enormno poboljšali, pitaš za vic i dobiješ glup vic, očajan vic od pre pet godina."

Andrej Karpati, podkast No Priors

Ta opservacija mi se urezala. Ne zato što je duhovita, nego upravo suprotno. Zato što objašnjava nešto što posmatram iz prvog reda.

Od 2023. držim predavanje pod nazivom „Prošlost, sadašnjost i budućnost generativnog AI-ja." Držao sam ga na konferencijama. Držao sam ga u korporativnim salama. Držao sam ga besplatno, što češće sam mogao, jer većina ljudi zaista nije shvatala razmere onoga što dolazi.

Svaki put sam ažurirao slajdove. Novi modeli. Nova predviđanja. Novi benčmarkovi srušeni.

Sad je 2026. Skoro dve godine od poslednje snimljene verzije tog predavanja. Pejzaž se pomerio na načine koji bi delovali nemoguće čak i pre dvanaest meseci.

Ali neke stvari se uopšte nisu promenile. Kao onaj vic.

Činjenica da AI danas može da piše produkcioni kod satima bez ljudskog nadzora, ali i dalje ne ume da improvizuje pristojnu poentu, nije simpatična anegdota. To je prozor u najvažnije pitanje u veštačkoj inteligenciji danas: Gde je granica između onoga što AI zaista može i onoga što samo izgleda da može?

Ta granica ima ime. Istraživači je zovu nazubljeni front.

Razumeti ga znači razumeti razliku između organizacija koje uspevaju sa AI-jem i 95 procenata onih koje ne uspevaju.

Likovi

U svom predavanju, pratio sam priču generativnog AI-ja kroz pet ključnih figura. Svaka predstavlja drugačiji deo slagalice. Kad se sad osvrnem, njihova predviđanja, i gde su ta predviđanja završila, govore nam više od bilo kog rezultata na benčmarku.

Rej Kurcvajl je objavio Singularity is Near 2005. godine, predviđajući da će AI nadmašiti ljudsku inteligenciju do 2029. i da će se ljudi spojiti sa AI-jem do 2045. Kad je 2010. sam ocenjivao svoja predviđanja, tvrdio je da je bio tačan u 86 procenata slučajeva. Njegov nastavak, Singularity is Nearer, izašao je 2024. sa jedva pomerenim datumima... 2029. je postalo 2030.

Najljudskiji detalj o Kurcvajlu nema veze sa vremenskim okvirima. Otac mu je umro 1970. Od tada Rej skuplja svako pismo, svaki dokument, svaku fotografiju koju je otac ostavio. Veruje da će jednog dana AI znati sve o njegovom ocu i da će, na neki način, više ličiti na njega nego što je otac ličio na sebe.

To nije predviđanje o tehnologiji. To je molitva prerušena u predviđanje.

Ben Gercl je popularizovao termin AGI i proveo karijeru zagovarajući veštačku inteligenciju koja nije samo pametna, nego i saosećajna. Suosnivač je robota Sofije, napravio je SingularityNET decentralizovano AI tržište i predviđa AGI na ljudskom nivou do ranih 2030-ih.

„Ako želimo da mašine budu naši partneri, moramo ih odgajiti da budu naši prijatelji."

Ben Gercl

Ideja zvuči skoro naivno 2026. godine, kad rezultati na benčmarkovima i enterprise ugovori pokreću većinu AI razvoja. Ali Gerclovo pitanje, kakvu inteligenciju zapravo gradimo?, relevantnije je nego ikada.

Demis Hasabis je bio šahovski majstor sa 13, napravio je hit igru Theme Park sa 17 i suosnivao DeepMind 2010. Google ga je kupio za 500 miliona dolara 2014. Pod Hasabisovim vođstvom, DeepMind je proizveo AlphaGo, AlphaFold, i nešto manje spektakularno ali važnije: okvir za merenje samog AGI-ja.

Vratiću se na taj okvir. Ispostavlja se da je jedan od najkorisnijih alata za probijanje kroz buku.

A onda tu je prijateljstvo koje se raspalo.

Ilon Mask i Lari Pejdž su bili bliski prijatelji 2012. godine. Tokom njihovih noćnih razgovora, Mask se uznemrio jer Pejdž, suosnivač Gugla, kompanije koja je upravo kupila DeepMind, nije dovoljno ozbiljno shvatao bezbednost AI-ja. Pejdž je Maska nazvao „specijistom". Neko ko se više brine o ljudima nego o AI-ju kao novom obliku inteligencije.

To je bila tačka preloma. 2015. Mask je preoteo AI istraživača Ilju Suckevera iz Gugla i suosnivao OpenAI kao direktan kontrateg rastućoj AI moći Gugla.

Što nas dovodi do Sema Altmana, koji je preuzeo mesto izvršnog direktora OpenAI-ja 2019. i nadgledao njegovu transformaciju iz neprofitne istraživačke laboratorije u najuticajniju AI kompaniju na svetu. GPT-3, DALL-E, GPT-4, modeli za rezonovanje koji su sve promenili... sve pod Altmanovim vođstvom.

Takođe pod njegovim vođstvom: prelazak na model „ograničenog profita", rastuća zabrinutost oko transparentnosti, i bizaran puč u upravnom odboru u novembru 2023. koji ga je nakratko smenio pre nego što se vratio nekoliko dana kasnije.

Ovih pet priča, vizionar, idealista, graditelj, zaštitnik i strateg, postavilo je pozornicu za ono što je usledilo.

A ono što je usledilo kretalo se brže nego što je iko od njih predvideo.

Rezultati

Kad sam držao predavanje u junu 2024, trka u AI naoružanju bila je u punom jeku. Google je lansirao Gemini. Meta je napravila zaokret od Metaversa ka AGI-ju otvorenog koda. Microsoft je svuda imao Copilot. Anthropic je imao Claude 3. A Maskov xAI je upravo prikupio 6 milijardi dolara za izgradnju Gigafabrike računanja.

U predavanju sam podelio Maskovo predviđanje, izneto samo nekoliko nedelja ranije, da će AGI stići „sledeće godine". To bi bio 2025.

Nije stigao.

Mask je sagradio Colossus, superkompjuter sa 200.000 GPU-ova u Memfisu, Tenesi. Od koncepta do rada prošlo je 122 dana, a zatim se udvostručio za 92 dana. Inženjerski podvig po svakom merilu.

Ali posedovanje najvećeg AI superkompjutera na svetu nije proizvelo AGI. Krajem 2025, Mask je rekao osoblju xAI-ja da postoji „10 procenata verovatnoće" da to postignu sa Grok 5. Početkom 2026, tiho je pomerio predviđanje na sledeću godinu. Opet.

Ovde nije poenta da je Mask pogrešio. Poenta je jaz između infrastrukture i inteligencije. Možeš da sagradiš najveći kompjuter na svetu i napuniš ga sa više GPU-ova nego što je iko mogao da zamisli. Inteligencija, prava, opšta inteligencija, ne nastaje samo zato što baciš više hardvera na problem.

Godinama je industrija funkcionisala na jednostavnoj veri: zakoni skaliranja. 2020. su istraživači OpenAI-ja pokazali da se performanse modela predvidivo poboljšavaju sa više računanja, podataka i parametara. DeepMind je precizirao matematiku 2022. Implikacija je bila opojna... samo ga napravi većim i postaje pametniji.

Ta vera je pokretala milijarde koje su se slivale u GPU klastere. Zato Colossus postoji.

A onda su prinosi počeli da opadaju.

Orion, OpenAI-jev interni plan za GPT-5, tiho je degradiran u GPT-4.5 pošto nije uspeo da isporuči očekivani skok. Dostigao je performanse GPT-4 nivoa posle samo 20 procenata treninga, ali preostalih 80 procenata je pokazalo opadajuće prinose. Fortune je u februaru 2025. izvestio da je Altman „efektivno priznao da tehnika skaliranja više ne proizvodi dovoljno velik skok u performansama".

Na NeurIPS-u 2024, Ilja Suckever, isti istraživač koga je Mask preoteo iz Gugla da suosnuje OpenAI, izrekao je oštru presudu:

„Pretreniranje kakvo poznajemo nesumnjivo će se završiti. Podaci su fosilno gorivo AI-ja. Imamo samo jedan internet."

Ilja Suckever, NeurIPS 2024

Zakoni skaliranja se nisu slomili. Ali smer skaliranja se promenio.

Umesto većih modela treniranih na više podataka, proboj je došao od davanja modelima više vremena da razmisle. Istraživač OpenAI-ja Noam Braun otkrio je da 20 sekundi rezonovanja modela daje isti dobitak u performansama kao skaliranje modela 100.000 puta. „Bukvalno sam mislio da je bag," rekao je.

Zato su o1 i o3 bili proboji. Ne zbog većih faza pretreniranja, nego zbog nove dimenzije: računanja u fazi inferencije. Davanje modelima da rezonuju u trenutku upotrebe, umesto trpanja više znanja u njih tokom treninga.

Lideri laboratorija se i dalje ne slažu šta ovo znači. Altman kaže da zakoni skaliranja „apsolutno" i dalje važe. Amodei kaže da Anthropic „ne vidi zid". Hasabis misli da nas skaliranje vodi otprilike do 50 procenata puta do AGI-ja, potreban je još jedan ili dva proboja. Suckever kaže da je „doba skaliranja" završeno i da smo „nazad u dobu istraživanja, samo sa velikim kompjuterima".

Podaci Epoch AI-ja sugerišu rešenje: poboljšanje sposobnosti se ubrzava, 1,85 puta brže od aprila 2024, ali ubrzanje dolazi od rezonovanja i reinforcement learninga, ne od većih faza pretreniranja. Nešto se i dalje skalira. Samo to nije ista stvar koja se skalirala ranije.

U međuvremenu, evo šta se još desilo od tada do sada.

Modeli za rezonovanje su isporučili. Ta promena smera skaliranja donela je konkretne rezultate. Do decembra 2024, o3 je postigao 75,7 procenata na ARC-AGI-1, testu na kom je GPT-4o jedva grebao pet procenata.

AI agenti su postali stvarnost. Više nije predviđanje, nego stvarna promena u tome kako se softver pravi. Karpati opisuje kako je prešao sa pisanja 80 procenata svog koda na pisanje praktično nijednog reda od decembra 2025. „Mislim da nisam ukucao ni jednu liniju koda verovatno od decembra," rekao je. Mogu ovo da potvrdim iz sopstvenog iskustva. U Orange Hillu ceo naš inženjerski tim je napravio isti prelaz... delegiramo agentima, pregledamo njihov rezultat i orkestriramo umesto da kucamo. Promena je bila nagla i totalna.

Troškovi su se urušili. Ekvivalent performansi GPT-3.5 pao je sa 20 dolara po milion tokena u novembru 2022. na 0,07 dolara po milion tokena do oktobra 2024. Smanjenje od 280 puta za 18 meseci. Ovo je važnije od većine rezultata na benčmarkovima jer je to ono što čini AI primenljivim na velikoj skali.

AI paradoks

$37B
Ulaganja kompanija u AI u 2025.
95%
AI pilota nije donelo rezultat
280×
Smanjenje troškova za 18 meseci
Razlika u produktivnosti naprednih korisnika

Izvori: MIT State of AI in Business 2025, Epoch AI, OpenAI Enterprise Data

Ulaganja kompanija su se utrostručila. Kompanije su uložile 37 milijardi dolara u generativni AI u 2025, u poređenju sa 11,5 milijardi godinu ranije.

Ali evo broja koji je najvažniji: 95 procenata enterprise AI pilota nije uspelo da isporuči merljiv poslovni rezultat, prema MIT-jevom izveštaju State of AI in Business za 2025.

Pročitaj to ponovo. 37 milijardi dolara potrošeno. 95 procenata neuspeh.

Ove kompanije ne propadaju zato što tehnologija ne funkcioniše. Propadaju zato što ne razumeju gde funkcioniše, a gde ne.

Nazubljeni front

2023. godine, istraživači sa Harvarda i Boston Consulting Grupe sproveli su terenski eksperiment. Dali su 758 BCG konsultanata pristup GPT-4 i merili šta se dešava.

Rezultati su bili čudni.

Na nekim zadacima, kreativna ideacija, analiza podataka, ubedljivo pisanje, konsultanti koji su koristili AI bili su dramatično produktivniji. Bolji kvalitet rada, manje vremena.

Na drugim zadacima, zadacima koji su ljudskom posmatraču delovali podjednako složeni, AI ih je činio gorim. Konsultanti koji su se oslanjali na rezultat AI-ja radili su lošije od onih koji ga uopšte nisu koristili.

Itan Molik, profesor sa Vartona koji je suvodio istraživanje, skovao je termin „nazubljeni tehnološki front" da opiše ono što su našli. AI nema glatku krivu sposobnosti koja predvidivo raste. Ima nazubljenu... nadljudski u nekim stvarima, sramotno loš u drugima, bez pouzdanog načina da unapred predvidiš šta je šta.

„AI može da radi neke zadatke neverovatno dobro, a druge neverovatno loše, na načine koji se nisu dobro poklapali sa našom ljudskom intuicijom o težini zadatka."

Itan Molik, Varton škola

Do 2026, nazubljeni front nije nestao. Ali mnogo bolje razumemo njegov oblik.

Karpati je to slikovito opisao: „Istovremeno imam osećaj da razgovaram sa izuzetno briljantnim doktorskim studentom koji je ceo život bio sistemski programer i sa desetogodišnjakom."

Ta metafora pogađa jer je svako ko koristi ove alate proživeo to. Zadivljen si onim što je AI upravo postigao, iskreno, sa vilicama na podu, a onda pet minuta kasnije uradi nešto toliko očigledno pogrešno da se zapitaš da li je uopšte išta razumeo.

Zašto? Zašto bi sistem koji rešava naprednu matematiku, piše elegantan kod i prolazi lekarske licence isto tako zakazao na zadacima koje bi dete moglo da reši?

Dugo niko nije imao zadovoljavajući odgovor. Istraživači su opisivali nazubljeni front ali ga nikada nisu objasnili.

Onda ga je Karpati objasnio. A objašnjenje je jednostavno.

Zašto se vic nikada ne poboljša

Evo mehanizma.

Moderni veliki jezički modeli se treniraju korišćenjem reinforcement learninga. Posle inicijalne faze pretreniranja, gde model uči jezik iz ogromnih količina teksta, laboratorije koriste RL da model učine boljim u specifičnim zadacima.

„To je zato što je van RL-a," rekao je Karpati. „Van reinforcement learninga. Van onoga što se poboljšava."

Zato vic o atomima opstaje. Nijedna laboratorija ne optimizuje za kvalitet viceva. Nije stvar u tome da ne mogu, nego u tome što mehanizam optimizacije ne zna kako da izmeri „smešno". Ono što ne može da izmeri, ne može ni da poboljša.

U posebnom intervjuu za Dwarkesh Podcast, Karpati je opisao RL kao „sisanje nadzora kroz slamčicu." Celokupna putanja rešenja, svaka odluka koju je model doneo usput, kompresuje se u jedan binarni signal: tačno ili netačno. Svaki korak ka tačnom odgovoru tretira se kao tačan, čak i kad je rezonovanje bilo pogrešno i model je samo imao sreće.

Posledica: „Svi uzorci koje dobiješ od modela su tiho kolabirani. Zauzimaju veoma mali manifold mogućeg prostora."

Rezultati modela na površini izgledaju raznovrsno, ali su stisnuti u uzak opseg. Zato svaki veliki jezički model priča iste viceve, koristi iste obrate i konvergira ka istim obrascima. RL optimizacija useca duboke brazde i model ide tim brazdama čak i kad bi trebalo da istražuje.

Ovo je motor iza nazubljenog fronta.

Unutar RL granice, matematika, kod, benčmarkovi, bilo šta sa proverljivim odgovorima, modeli se poboljšavaju zapanjujućim tempom. Na zadacima koje RL može da optimizuje, ovi sistemi napreduju brže nego ikad.

Van RL granice, humor, zdravorazumsko rasuđivanje, kreativna raznovrsnost, socijalna procena, napredak je u suštini nula.

„Ili si na šinama i deo si kola superinteligencije, ili nisi na šinama i van si domena koji se mogu verifikovati, i odjednom sve nekako luta."

Andrej Karpati

Nazubljeni front nije slučajan. To je mapa onoga do čega reinforcement learning može i ne može da dopre.

Groblje benčmarkova

RL granica vodi do problema o kome industrija nedovoljno govori.

Kad je GPT-3 prvi put radio MMLU test, široki ispit sa višestrukim izborom koji pokriva 57 akademskih predmeta, postigao je 35 procenata. Test je osmišljen da meri opšte znanje i rezonovanje, a 35 procenata je jedva iznad nasumičnog pogađanja.

Do 2026, najnoviji modeli postižu 99 procenata.

Test je praktično beskoristan.

Groblje benčmarkova

99%
MMLU — zasićen sa 35%
0%
ARC-AGI-2 — čisti LLM-ovi
48,9 p.p.
GPQA skok za jednu godinu
67,3 p.p.
SWE-bench skok

Izvori: Epoch AI, ARC Prize Foundation

Ista priča se ponavlja svuda. HumanEval, koji testira generisanje koda, zasićen je na 91 do 95 procenata. GPQA, ispit za nauku na nivou postdiplomskih studija, skočio je za 48,9 procentnih poena za jednu godinu. SWE-bench, koji meri softverski inženjering u realnom svetu, napredovao je za 67,3 poena.

Modeli osvajaju benčmarkove osmišljene da traju godinama za svega nekoliko meseci.

Ovo izgleda kao izvanredan napredak. I deo toga jeste. Ali Karpati je identifikovao kritičan problem: „Benčmarkovi su gotovo po konstrukciji okruženja koja se mogu verifikovati i zato su odmah podložni RLVR-u."

RLVR, reinforcement learning sa proverljivim nagradama, upravo je mehanizam iza nazubljenog fronta. Benčmarkovi imaju jasne tačne odgovore, što ih čini savršenim metama za RL optimizaciju. Laboratorije konstruišu okruženja za trening koja su bliska problemima sa benčmarkova kroz generisanje sintetičkih podataka. Ne treniraju bukvalno na testu. Ali treniraju na zadacima toliko sličnim da performanse na benčmarkovima rastu bez obzira.

Ovo je Gudhartov zakon: Kad mera postane cilj, prestaje da bude dobra mera.

Postoji zanimljiv primer. Istraživači su otkrili da GPT-4 može da reši programerske probleme sa Codeforces-a objavljene pre datuma preseka njegovih podataka za trening, ali da zakazuje na problemima objavljenim posle. Nije rezonovao kroz probleme. Zapamtio je obrasce.

Pa industrija pravi teže benčmarkove. Modeli ruše i te. I ciklus se ponavlja.

Najnoviji učesnik u ovoj trci je ARC-AGI-2, koji je napravio Fransoa Šole, isti istraživač koji je napravio Keras, jednu od najkorišćenijih biblioteka za duboko učenje.

ARC-AGI-2 testira nešto specifično: sposobnost rešavanja novih vizuelnih zagonetki koje zahtevaju pravo rezonovanje, ne prepoznavanje obrazaca. Svaka zagonetka uključuje interpretiranje nepoznatih pravila iz primera i njihovu primenu, nešto što ljudi rade prirodno.

Rezultati su otrežnjujući.

Čisti veliki jezički modeli postižu 0 procenata na ARC-AGI-2. Nula.

Najbolji sistem, rešenje sa opsežnim inženjeringom koje koristi Gemini 3 sa obimnim skafoldingom, postigao je 54 procenta po ceni od 31 dolara po zadatku. Prosečni ljudi postižu blizu 100 procenata, pri čemu je svaki zadatak rešiv od strane najmanje dva ljudska učesnika u manje od dva pokušaja.

Za kontekst: Na prethodnoj verziji, OpenAI-jev o3 je postigao 87,5 procenata uz 4.560 dolara računanja po zadatku. Kad je izašla teža verzija testa, performanse su se urušile.

Šoleova ocena: „Performanse trenutnog AI rezonovanja vezane su za znanje modela." Kad test izlazi izvan onoga za šta je model video varijacije, model zakazuje.

Kao što sam govorio u predavanju: Ako LLM može da reši test, to ne znači da je rešio ono što taj test meri.

Nivo jedan od pet

Pa gde smo zapravo?

2023. godine DeepMind je objavio rad koji je uradio nešto korisno. Umesto da tretira AGI binarno, ili ga imaš ili nemaš, napravili su okvir sa pet nivoa.

Performanse × GeneralnostUsko
jasno definisan zadatak ili skup zadataka
Opšte
širok raspon nefizičkih zadataka, uključujući metakognitivne sposobnosti poput učenja novih veština
Nivo 0: Bez AI-jaKalkulator, kompajlerRačunarstvo sa čovekom u petlji (npr. Amazon Mechanical Turk)
Nivo 1: U nastajanju
jednak ili nešto bolji od nekvalifikovanog čoveka
GOFAI, jednostavni sistemi zasnovani na pravilima (npr. SHRDLU)ChatGPT, Bard, Llama 2
Nivo 2: Kompetentan
najmanje 50. percentil kvalifikovanih odraslih
Siri, Alexa, Google Assistant; Watson; SOTA LLM-ovi za podskup zadataka (kratki eseji, jednostavno kodiranje)Još nije dostignut
Nivo 3: Ekspert
najmanje 90. percentil kvalifikovanih odraslih
Grammarly; generativni modeli za slike (Imagen, DALL-E 2)Još nije dostignut
Nivo 4: Virtuoz
najmanje 99. percentil kvalifikovanih odraslih
Deep Blue, AlphaGoJoš nije dostignut
Nivo 5: Nadljudski
nadmašuje 100% ljudi
AlphaFold, AlphaZero, StockFishVeštačka superinteligencija (ASI)
Još nije dostignuta

Ovi nivoi se mere kroz dve dimenzije: performanse i generalnost.

U uskim zadacima, već smo na Nivou 5. AlphaFold predviđa strukture proteina bolje od bilo kog čoveka. AI sistemi dijagnostikuju određene oblike raka preciznije od ekspertskih radiologa. Modeli za generisanje koda nadmašuju većinu programera na dobro definisanim zadacima.

Ali za opštu inteligenciju, sposobnost da se nosi sa bilo kojim kognitivnim zadatkom koji mu postaviš, trenutni frontalni modeli su na Nivou 1.

U nastajanju.

Nivo 1 znači: otprilike koliko i neko ko zapravo ne zna šta radi, ali u širokom rasponu zadataka.

To je iskrena procena. Najsofisticiraniji AI sistemi na svetu dostigli su kognitivni nivo dobronamernog početnika kome ponekad uspe.

Ovaj okvir probija kroz hajp na način na koji goli rezultati benčmarkova nikada nisu mogli.

Kad Mask kaže „AGI sledeće godine", sugeriše da ćemo skočiti sa Nivoa 1 na... šta? Nivo 3? Nivo 5? Za dvanaest meseci?

Kad Kurcvajl predviđa AGI do 2030, govori o AI-ju koji je barem na nivou eksperta u celokupnom rasponu ljudskih kognitivnih zadataka. Mi smo na Nivou 1 u opštem smislu i Nivou 5 u šačici uskih zadataka.

Karpatijeva procena je umerenija. Tokom 2025. konstantno je opisivao AGI kao udaljen otprilike jednu deceniju. „Problemi su rešivi," rekao je. „Savladivi su. Ali su i dalje teški."

Pravi razliku između „godine agenata", koju je industrija proglasila 2024, i „decenije agenata", za koju smatra da je živimo. Alati funkcionišu. Transformativni su. Ali jaz između „impresivnog demoa" i „pouzdanog autonomnog sistema" meri se godinama inženjeringa, ne mesecima hajpa.

Rezultati ARC-AGI-2 potvrđuju ovo. Skinite skafolding, prompt inženjering, računski zahtevne petlje rezonovanja. Testirajte sirov model na novim problemima.

Nula procenata.

Nazubljeni front nije nazubljen samo horizontalno, dobar u nekim zadacima, loš u drugim. Nazubljen je i vertikalno. Nivo 5 u uskom, Nivo 1 u opštem.

AI je istovremeno nadljudski i pod-kompetentan. Izazov je znati koje od to dvoje dobijaš u svakom konkretnom trenutku.

Šta se zaista poboljšava

Veći deo ovog članka posvetio sam onome što AI ne može. To je namerno. Razumevanje ograničenja je najvrednija stvar koju mogu da ponudim, jer su sposobnosti očigledne... doživljavaš ih svaki dan.

Ali te sposobnosti su stvarne i ubrzavaju se.

Indeks sposobnosti Epoch AI-ja pokazuje jasnu tačku preloma u aprilu 2024. Pre tog datuma, sposobnosti su se poboljšavale tempom od 8,3 ECI poena godišnje. Posle toga, stopa je skočila na 15,5 poena godišnje, ubrzanje od 1,85 puta.

Šta je to pokrenulo? Modeli za rezonovanje.

Kad je OpenAI objavio o1, predstavio je suštinski drugačiji pristup: umesto da odmah generiše odgovor, model najpre generiše lanac rezonovanja, razmišljajući kroz problem korak po korak. Zvuči jednostavno. Nije bilo. Zahtevalo je nove metodologije treniranja, novu infrastrukturu i nove načine ocenjivanja rezultata modela.

Rezultat je bio dramatično poboljšanje na zadacima koji zahtevaju višekoračno logičko razmišljanje. Do 2026, svaka velika laboratorija ima modele za rezonovanje. Claude razmišlja pre nego što odgovori. Gemini ima svoj režim za rezonovanje. DeepSeek R1 je dokazao da se rezonovanje na frontalnom nivou može postići uz delić računskih troškova.

A onda tu su agenti.

U predavanju iz 2024. predvideo sam da će AI agenti biti sledeći veliki razvoj, sistemi koji autonomno obavljaju zadatke u više koraka. To predviđanje se ostvarilo.

Karpati opisuje tu promenu: sada pokreće više AI agenata paralelno, jedan istražuje, jedan piše kod, jedan planira, i orkestrira ih kao tim. „Nije stvar u jednoj sesiji sa tvojim agentom," rekao je. „Više agenata, kako oni sarađuju i kako se krećeš u mnogo većim makro akcijama."

Ovo nije naučna fantastika. Dešava se upravo sada, u hiljadama inženjerskih timova. Prelaz sa „AI kao automatsko dopunjavanje" na „AI kao autonomni saradnik" najznačajnija je praktična promena otkad se ChatGPT pojavio.

A kriva troškova sve to čini pristupačnijim iz meseca u mesec. Kad sam počeo da držim predavanje, korišćenje GPT-4 za enterprise rad bilo je prohibitivno skupo. Danas ekvivalentan nivo performansi košta 280 puta manje nego pre 18 meseci.

Evo šta mislim da sledi.

Nazubljeni front neće nestati. Ali će se izravnati, postepeno, neravnomerno, na načine koji su važni. Svaki put kad istraživači smisle kako da neki novi domen učine proverljivim, kako da kreiraju signale nagrade za zadatke koji ih ranije nisu imali, RL mašinerija se uključuje i taj domen se brzo poboljšava.

Molikov uvid je ovde koristan: „Ne gledaj benčmarkove. Gledaj uska grla."

Kad se usko grlo probije, kad sposobnost koja je stajala odjednom skoči napred, može da otključa cele kategorije primena preko noći. Guglov proboj u kvalitetu generisanja slika nije samo proizveo bolje slike. Unapredio je svaki alat koji koristi slike: prezentacije, dokumenta, dizajn procese.

Trka nije oko toga da li će AI nastaviti da napreduje. Hoće. Pitanje je: Koja uska grla se sledeća probijaju? I da li si pozicioniran da se pokreneš kad se to desi?

Pitanje na kraju

Predavanje sam uvek završavao na isti način.

Posle prolaska kroz likove, trku u naoružanju, predviđanja, uticaje na kompanije, društvo i pojedince, posle pokrivanja gubitka radnih mesta, univerzalnog osnovnog dohotka, AI otelotvorenog u robotima i teorijskih budućnosti superinteligencije, zatvaram sa dva pitanja.

Da li je inteligencija emergentno svojstvo sve materije?

Da li je ljubav emergentno svojstvo svake inteligencije?

Nikada nisam menjao ta pitanja. Ni jednom, kroz svaku verziju predavanja. Jer to su pitanja na koja i dalje nemamo odgovor, čak i dok se sve ostalo pomera ispod naših nogu.

Danas deluju još oštrije.

Napravili smo sisteme koji postižu 99 procenata na testovima osmišljenim da mere inteligenciju. Ti isti sistemi postižu 0 procenata kad se test promeni na načine sa kojima bi se svaki čovek lako snašao. Rezonuju kroz složenu matematiku ali ne umeju da ispričaju vic koji već nije ispričan hiljadu puta.

Inteligencija koju smo napravili je stvarna. Ali je i radikalno nepotpuna.

Ruši benčmarkove ali ne može da funkcioniše van svojih šina za trening. Ubrzava ljudske sposobnosti za čitave redove veličine ali zakazuje u 95 procenata slučajeva kad organizacije pokušaju da je primene na velikoj skali. Stoji na Nivou 1 okvira od pet nivoa koji su njeni sopstveni tvorci dizajnirali... dovoljno moćna da transformiše industrije, nigde blizu onoga što iko od nas misli kad kaže „inteligencija".

Ako je inteligencija emergentno svojstvo sve materije, ako prirodno nastaje iz dovoljne složenosti, onda bi trebalo da očekujemo da AI na kraju razvije kvalitete koje povezujemo sa opštom inteligencijom. Humor. Zdrav razum. Sposobnost da rezonuje o stvarima koje nikada ranije nije video. Kreativno iznenađenje. Prosudbu.

Ali dokazi sa nazubljenog fronta sugerišu da inteligencija ne nastaje ravnomerno. Nastaje u pravcima za koje optimizuješ. Svuda drugde ostaje zamrznuta.

A ljubav? Saosećanje? Kvaliteti za koje se Ben Gercl čitave karijere zalaže da moraju biti ugrađeni u AI od samog početka?

Oni su još dalje van RL granice nego vicevi.

Što otvara pitanje za koje bih voleo da ga frontalne laboratorije shvate ozbiljno. Videli smo šta se dešava kad optimizuješ za matematiku... modeli postaju nadljudski u matematici. Videli smo šta se dešava kad optimizuješ za kod... modeli pišu bolji kod od većine ljudi. Svaki put kad se RL usmeri na neki domen, taj domen eksplodira od sposobnosti.

Pa šta bi se desilo da ga usmerimo na empatiju? Na nijansu? Na vrstu moralnog rezonovanja koje zahteva istovremeno držanje dve konfliktne istine? Nikada nismo probali. Ne sa istim intenzitetom, istim budžetima za računanje, istim inženjerskim fokusom. Nemamo pojma kakva bi se emergentna svojstva mogla pojaviti ako bismo optimizovali za saosećanje sa istom rigornošću sa kojom optimizujemo za dopunjavanje koda.

Možda ništa. Ili možda nešto što ne možemo da predvidimo. Na isti način na koji niko nije predvideo da će trening na kodu poboljšati rezonovanje o logici, ili da će lanac misli otključati matematičke sposobnosti koje brute-force skaliranje nije moglo da dosegne.

Laboratorije to neće uraditi same od sebe. Ne postoji rang-lista za ljubaznost. Ne postoji benčmark za mudrost. Ali ako je ovaj članak išta pokazao, to je da oblik AI-ja nije neizbežan. Direktan je odraz onoga što biramo da merimo i nagrađujemo. Trenutno gradimo inteligenciju po sopstvenom liku: briljantnu u stvarima koje možemo da ocenimo, ravnodušnu prema svemu ostalom.

Nalazimo se u izvanrednom trenutku. Alati su moćniji nego ikada i ograničeniji nego što većina ljudi shvata. Organizacije koje će prosperirati biće one koje razumeju obe strane te jednačine, koje dovoljno jasno vide nazubljeni front da znaju gde mogu da stupe, a gde ne.

Poslednje tri godine pomažem organizacijama da se kreću kroz ovaj teren. Jaz između onoga što AI može da uradi u demu i onoga što može da uradi u tvom biznisu je mesto gde se pravi posao dešava.

U tom jazu živim. Zato stalno ažuriram predavanje.

A negde tamo, LLM i dalje priča isti vic o atomima.