hoi

"Dure autocomplete of begin van écht denken? Wat Apple's AI-paper ons werkelijk leert"

27-06-2025

Een recent LinkedIn-commentaar stelt dat Apple's paper over reasoning in AI bewijst dat grote taalmodellen niets meer zijn dan "dure autocomplete". AI zou niet intelligent zijn, niet kunnen redeneren, en fundamenteel op drijfzand zijn gebouwd. Maar wie de moeite neemt om The Illusion of Thinking van Shojaee et al. werkelijk te lezen, ontdekt iets anders: niet het failliet van GenAI, maar een belangrijk, wetenschappelijk onderbouwd signaal hoe we AI nog veel beter kunnen maken.

Wat zegt de paper écht?

De onderzoekers bij Apple bestudeerden geavanceerde Large Reasoning Models (zoals Claude 3.7 Thinking, OpenAI o3-mini, DeepSeek-R1) door ze complexe puzzels op te laten lossen, taken met gecontroleerde moeilijkheidsgraad en duidelijke logica. Daarmee konden ze meten wanneer en hoe modellen redeneren, falen of zichzelf corrigeren.

De resultaten tonen drie belangrijke fasen:

  1. Bij eenvoudige problemen zijn standaard LLMs (zonder Chain-of-Thought) vaak beter én efficiënter dan reasoning-modellen.
  2. Bij gemiddelde complexiteit komen de reasoning-capaciteiten van LRMs tot hun recht.
  3. Bij hoge complexiteit falen álle modellen, hun prestaties en redeneringsinspanningen storten in.

Belangrijk: de modellen denken wel, maar niet op menselijke of structureel betrouwbare wijze. Ze gebruiken redeneringsstrategieën, maar missen algoritmische precisie. Zelfs als je een perfect stappenplan meegeeft (zoals bij de Toren van Hanoi), voeren ze het fout uit.

Wat zegt de paper níet?

  • Dat LLMs geen waarde hebben
  • Dat AI geen intelligent gedrag kan vertonen
  • Dat de technologie onbruikbaar of 'gedoemd' is
  • Dat Apple "AI opgeeft" (de keynote bevatte trouwens wél uitgebreide AI-integraties, zoals Apple Intelligence)

Kortom: nergens wordt beweerd dat LLMs "nooit zullen denken" of "fundamenteel fout zijn". Dat is een verkeerde extrapolatie die meer zegt over de commentator dan over de studie.