Waarom AI Chatbots Verwarrend Worden na Lange Gesprekken: Microsoft Onderzoek Onthult

Kunstmatige intelligentie verliest nauwkeurigheid in uitgebreide dialogen

Een baanbrekend onderzoek van Microsoft Research en Salesforce wetenschappers heeft de technologiegemeenschap aan het denken gezet. Na analyse van meer dan 200.000 conversaties met geavanceerde grote taalmodellen (LLM’s) hebben onderzoekers een opvallende ontdekking gedaan: naarmate gesprekken langer worden, daalt de precisie van modelantwoorden drastisch. De foutenkans kan zelfs meer dan verdubbelen.

Het onderzoek testte meerdere toonaangevende modellen: GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet en DeepSeek R1. Bij afzonderlijke, helder geformuleerde vragen behaalden deze systemen indrukwekkende succespercentages van bijna 90 procent.

Maar wanneer gebruikers overstapten naar complexere gesprekken met verduidelijkingen, aanvullende vragen en uitgebreide context, kelderde de gemiddelde nauwkeurigheid naar ongeveer 65 procent.

Contextoverbelasting, geen intelligentieverlies

Hoewel sommige media snel de conclusie trokken dat chatbots “dommer worden”, presenteren de onderzoekers zelf een genuanceerdere verklaring. Het gaat niet om een degradatie van modelintelligentie, maar om beperkingen in het beheren van lange en dynamisch veranderende context.

LLM’s functioneren met een zogenaamd contextvenster – een beperkte hoeveelheid tekst die het model tegelijkertijd kan “onthouden”. Wanneer dialogen zich uitbreiden, wordt eerdere informatie gecomprimeerd, samengevat of gedeeltelijk verloren.

Hierdoor kan het model beginnen met vertrouwen op onnauwkeurige aannames die zelf in eerdere delen van het gesprek zijn ontstaan. Dit creëert een domino-effect van fouten die zich opstapelen.

Het fenomeen van antwoordinflatie

Een van de meest fascinerende aspecten van het onderzoek betreft de zogenaamde antwoordinflatie. Onderzoekers ontdekten dat in langere dialogen de antwoorden van modellen 20 tot zelfs 300 procent langer werden.

Samen met de lengte groeide ook het aandeel speculatieve beweringen en zogenaamde “hallucinaties”. In de context van kunstmatige intelligentie betekent een hallucinatie overtuigend klinkende maar feitelijk onjuiste informatie.

Het probleem wordt bijzonder evident wanneer het model in latere antwoorden begint te vertrouwen op zijn eigen eerdere fouten, alsof het betrouwbare feiten zijn. Zelfs modellen met geavanceerde redeneringsarchitecturen of uitgebreide “gedachtetokens” waren niet volledig beschermd tegen dit verschijnsel.

Praktische gevolgen voor gebruikers

Deze bevindingen hebben duidelijke praktische implicaties. Chatbots worden steeds vaker geïntegreerd in klantenservicesystemen, educatieve platforms, programmeertools en zelfs medische consultaties.

Bij langdurige interacties wordt het risico van foutenophoping een kritieke factor. Een gebruiker die het systeem vertrouwt als een gezaghebbende bron, kan het moment missen waarop nauwkeurige antwoorden geleidelijk veranderen in logisch consistente maar feitelijk onjuiste interpretaties.

Waarom modellen nog steeds “intelligent” lijken

Paradoxaal genoeg behouden modellen, zelfs bij afnemende statistische nauwkeurigheid, de indruk dat ze “de situatie begrijpen”. Dit komt doordat ze taal genereren die structureel en stilistisch menselijke redenering nabootst.

Met andere woorden: vloeiende tekst betekent niet noodzakelijkerwijs correcte inhoud. Dit verschil tussen taalkundige vloeiendheid en feitelijke nauwkeurigheid wordt een van de belangrijkste evaluatiedilemma’s van hedendaagse kunstmatige intelligentie.

Context binnen de technologiemarkt

Het onderzoek verscheen op een moment dat de concurrentie tussen LLM-ontwikkelaars een nieuw intensiteitsniveau heeft bereikt. Chatbots zijn geen experimenteel product meer, maar een dagelijks werkinstrument voor miljoenen mensen wereldwijd.

Technologie-analisten wijzen erop dat de verwachtingen van gebruikers snel stijgen: van AI wordt niet alleen creativiteit of hulp verwacht, maar bijna absolute precisie. Dergelijke onderzoeken herinneren eraan dat zelfs de meest geavanceerde systemen nog steeds statistische modellen met duidelijke beperkingen zijn.

Implicaties voor de toekomst van AI

De auteurs dringen er bij ontwikkelaars op aan meer aandacht te besteden aan dialoogstabiliteit, contextbeheer en mechanismen die het model in staat stellen “aan zichzelf te twijfelen”.

Een van de meest veelbelovende richtingen zijn hybride systemen waarin LLM’s worden gecombineerd met externe kennisbanken of feitencontrolerende modules. Dit zou de betrouwbaarheid aanzienlijk kunnen verbeteren.

Het onderzoek ontkent niet de mogelijkheden van kunstmatige intelligentie, maar herinnert ons eerder aan een fundamentele regel: hoe complexer de taak en hoe langer de interactie, hoe belangrijker kritisch denken wordt – zowel aan de menselijke als aan de machinekant.

Essentiële lessen voor AI-gebruikers

Voor dagelijkse gebruikers biedt dit onderzoek waardevolle inzichten. Bij lange gesprekken met AI-systemen is het verstandig om periodiek de draad opnieuw op te pakken, eerdere conclusies te verifiëren en niet blind te vertrouwen op consistentie als bewijs van correctheid.

De bevindingen onderstrepen dat we nog steeds in de leerfase zitten van hoe we optimaal met deze krachtige maar beperkte technologie kunnen samenwerken.