Waarom zijn huidige grote taalmodellen niet genoeg om AGI te bereiken?

LLM's zijn autoregressieve patroonherkenners: ze voorspellen het volgende token op basis van oppervlaktestatistieken, zonder een blijvend wereldmodel of verankering in de fysieke werkelijkheid. Ze kunnen redeneren in tekst nabootsen, maar kunnen niet betrouwbaar simuleren hoe de wereld verandert wanneer een agent een actie uitvoert.

Waarom zijn Wereldmodellen zo belangrijk voor autonome agenten?

Wereldmodellen leren gecomprimeerde, causale representaties van de omgeving en kunnen toekomstige toestanden simuleren in latente ruimte. Dit stelt agenten in staat om te plannen, duizenden acties in silico te evalueren en veilig te handelen in de fysieke wereld — iets waar pixel-niveau generators en model-vrije RL moeite mee hebben om dit efficiënt of betrouwbaar te doen.

Wereldmodellen, Voorbij de Autoregressieve Illusie

Waarom Wereldmodellen de Noodzakelijke Architectuur voor AGI Zijn

We moeten stoppen met het vermenselijken van Grote Taalmodellen (LLM’s). Wanneer GPT-4 een complexe Python-functie schrijft, is dat geen uiting van redeneren, maar van probabilistische convergentie. Het model navigeert door een hoogdimensionale vectorruimte om het meest waarschijnlijke volgende token te vinden. Dit is indrukwekkend, maar fundamenteel beperkt. LLM’s zijn autoregressief; ze hebben geen interne staat die blijft bestaan buiten het contextvenster en, cruciaal, ze missen “grounding”. Ze begrijpen de fysieke implicaties van hun output niet.

De volgende grote sprong in kunstmatige intelligentie vereist een fundamentele architecturale verschuiving: weg van puur generatieve modellen die pixels of tekst voorspellen, naar Wereldmodellen die opereren in latente ruimte. Dit is de verschuiving van statistische nabootsing naar causale inferentie. We bewegen van systemen die zich afvragen “welk woord volgt op het vorige?” naar systemen die simuleren “hoe verandert de staat van de wereld als gevolg van actie X?”.

De Tekortkomingen van Pixel-Perfecte Voorspelling

Het fundamentele probleem met de huidige generatie “Generatieve AI” (zowel tekst als video) is inefficiëntie in representatie. Neem een video van een straatscène. Een traditioneel generatief model probeert de waarde van elke pixel in het volgende frame te voorspellen. Dit is computationeel een nachtmerrie en theoretisch incorrect. De wereld is op microniveau inherent chaotisch en stochastisch. De exacte beweging van individuele regendruppels of de textuur van statische ruis is voor de taak vaak irrelevant.

Een Wereldmodel pakt dit anders aan. Het probeert niet de sensorische input (pixels) te voorspellen, maar de abstracte representatie van die input. Dit is wat we innovatie binnen predictive coding noemen. Het systeem filtert hoogfrequente ruis (de regendruppels) weg en richt zich op laagfrequente signalen (de slippende auto). Dit stelt het model in staat de invariante eigenschappen van de omgeving te leren: massa, momentum, wrijving en objectpermanentie. Dit onderscheid tussen “aleatorische onzekerheid” (onvoorspelbare ruis) en “epistemische onzekerheid” (gebrek aan kennis over de structuur) vormt de kern van waarom Wereldmodellen superieur zijn voor autonome systemen.

Yann LeCuns JEPA-architectuur

Yann LeCun, Chief AI Scientist bij Meta, bepleit deze aanpak al jaren via zijn JEPA-voorstel (Joint Embedding Predictive Architecture). In tegenstelling tot Auto-Encoders of GAN’s, die proberen de input te reconstrueren (generatief), probeert JEPA de input te voorspellen in de embedding-ruimte.

De architectuur werkt als volgt:

Encoder: zet de huidige observatie x om in een abstracte representatie sₓ.
Predictor: neemt deze representatie sₓ en een mogelijke actie a, en voorspelt de toekomstige representatie sᵧ.
Verliesfunctie: het model wordt niet gestraft voor het missen van een pixel, maar voor de afstand tussen de voorspelde representatie en de daadwerkelijke representatie van de toekomstige staat [1].

Dit dwingt het systeem om semantische structuren te leren in plaats van oppervlakkige kenmerken. Het resultaat is een AI die “begrijpt” dat een object dat achter een ander object verdwijnt nog steeds bestaat (objectpermanentie), simpelweg omdat de representatie in latente ruimte intact blijft.

Van Videogeneratie naar Fysica-engines

De recente release van OpenAI’s Sora moet in dit licht worden bekeken. Hoewel het aan het grote publiek wordt verkocht als een creatieve tool, herkenden machine learning-engineers direct de onderliggende implicatie: Sora is een datagedreven fysica-engine. Door te trainen op enorme hoeveelheden visuele data, heeft het model een impliciet, maar onvolledig, begrip van fysica opgebouwd via “visuele patches” (het visuele equivalent van tokens) [2].

In hun technisch rapport verwijst OpenAI expliciet naar “wereldsimulatoren” (2). Er is echter een addertje onder het gras. Sora is nog grotendeels diffusiegebaseerd en probabilistisch in pixelruimte. Het “hallucineert” fysica. Voor creatieve video is dat geen probleem, maar voor automatisering in de echte wereld is het fataal. Een autonome robotarm kan niet gokken of een glazen object al dan niet vervormt wanneer het wordt dichtgeknepen. Het model moet deterministische zekerheid hebben over materiaaleigenschappen — iets waar pure diffusiemodellen vanwege hun statistische aard vaak aan ontbreken.

Model-Based Reinforcement Learning (MBRL)

Hier komen Wereldmodellen samen met Reinforcement Learning. In traditionele “Model-Free RL” (zoals de systemen die leerden Atari-games te spelen) leert een agent puur door trial-and-error, zonder de regels van het spel te begrijpen. Dit vereist miljoenen iteraties, wat mogelijk is in een digitale simulatie, maar onmogelijk in de fysieke wereld (een robot kan niet 10.000 keer vallen om te leren lopen zonder kapot te gaan).

Wereldmodellen maken “Model-Based RL” haalbaar. De agent bouwt een intern model van de omgeving (de “forward dynamics”) en gebruikt dit om duizenden acties in silico te simuleren voordat hij ook maar één actie in de realiteit uitvoert. Het werk van Google DeepMind aan RT-2 (Robotic Transformer) en latere iteraties laat zien hoe vision-language-action (VLA) modellen deze interne simulaties kunnen gebruiken om te generaliseren naar nieuwe omgevingen [3]. De agent “droomt” mogelijke toekomsten en kiest het pad met de hoogste kans op beloning.

Het Alignment-probleem in Latente Ruimte

De verschuiving naar interne simulaties brengt nieuwe risico’s met zich mee op het gebied van governance en veiligheid. Bij een LLM kunnen we de output (tekst) direct inspecteren en beoordelen op toxiciteit of onwaarheden. Bij een Wereldmodel speelt het besluitvormingsproces zich af in een hoogdimensionale vectorruimte die voor mensen onleesbaar is.

Als een autonoom voertuig besluit uit te wijken, doet het dat op basis van een interne voorspelling van de toekomst. Als dat interne model bias bevat — bijvoorbeeld door incorrecte trainingsdata over hoe voetgangers zich gedragen — is de uitkomst catastrofaal. We stuiten hier op het “Black Box”-probleem in het kwadraat. We moeten methoden ontwikkelen voor “interpretability” van de latente ruimte. Hoe vertaal je een vector in de representatieruimte terug naar een voor mensen begrijpelijk concept zonder nuance te verliezen? Zonder robuuste observability-tools voor deze interne toestanden blijft het inzetten van autonome agenten in kritieke infrastructuur een onverantwoord risico.

Daarnaast is er het computationele aspect. Het continu draaien van complexe predictieve modellen in real-time (inferentie) vereist edge-computing-vermogen dat de grenzen van de huidige hardware test. De strijd gaat niet alleen om betere algoritmes, maar om hardwarearchitecturen (zoals neuromorfe chips) die deze parallelle simulaties energiezuinig kunnen draaien.

Conceptuele illustratie van wereldmodellen verankerd in de fysieke werkelijkheid — Wereldmodellen moeten verankerd zijn in de fysieke werkelijkheid

Strategische Implicaties: De Opkomst van de “Agentic” Stack

Voor techstrategen en CTO’s betekent dit dat de huidige AI-stack een grondige herziening nodig heeft. De focus verschuift van Retrieval-Augmented Generation (RAG) voor tekst naar systemen die perceptie, voorspelling en actie koppelen. Dit is de strategie achter de volgende generatie enterprise AI.

Denk aan supply chain management. Een Wereldmodel kan de hele logistieke keten simuleren, inclusief externe variabelen zoals weerpatronen en geopolitieke onrust. Het voorspelt niet alleen knelpunten, maar simuleert ook de domino-effecten van mogelijke interventies. Dit gaat veel verder dan lineaire optimalisatie; het is de berekening van complexe, dynamische systemen met niet-lineaire variabelen. Bedrijven die nog investeren in statische voorspellingsmodellen zullen binnenkort worden voorbijgestreefd door concurrenten die met dynamische simulaties werken.

Conclusie

De overgang naar Wereldmodellen is de noodzakelijke correctie op de huidige AI-hype. We hebben de grenzen van statistische tekstgeneratie bereikt. Om intelligentie te creëren die kan interacteren met de fysieke werkelijkheid, moeten we machines bouwen die de onderliggende causale structuur van die werkelijkheid kunnen internaliseren.

Dit betekent een verschuiving in engineering-focus: van datasetgrootte naar datakwaliteit en fysieke consistentie; van pixelgeneratie naar representation learning. De AI van de toekomst is geen chatbot die alles heeft gelezen, maar een engineer die begrijpt hoe de wereld in elkaar steekt. De echte doorbraak is niet dat de machine kan praten, maar dat hij eindelijk leert luisteren naar de wetten van de fysica.

Gerelateerde signalen

AI-kosten dalen met 1000% terwijl techgiganten naar nul racen - Legt uit waarom goedkopere inferentie always-on simulatie mogelijk maakt, waardoor planning met wereldmodellen ook buiten enorme datacenters haalbaar wordt.
Waarom AGI niet vóór 2037 zal gebeuren: de harde grenzen van data en energie - Onderbouwt het argument dat schaalvergroting tegen data- en energieplafonds aanloopt, wat onderzoek richting nieuwe architecturen duwt.

Referenties

[1] LeCun Y. A Path Towards Autonomous Machine Intelligence version 0.9.2. OpenReview. 2022 Jun 27. OpenReview

[2] Brooks T, Peebles B, Holmes C, DePue W, Guo Y, Jing L, et al. Video generation models as world simulators. OpenAI; 2024. OpenAI

[3] Brohan A, et al. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. Google DeepMind; 2023. Google DeepMind

Wereldmodellen, voorbij de autoregressieve illusie