Als je ooit een Large Language Model (LLM) hebt gebruikt, weet je dat het bijna elke vraag kan beantwoorden die je stelt. Maar soms klopt het antwoord niet helemaal. Waarom gebeurt dit, en waarom is het cruciaal om de geldigheid van deze antwoorden te controleren?
Waarom LLM's Altijd een Antwoord Hebben
Om te begrijpen waarom LLM's altijd een antwoord genereren, moeten we kijken naar hoe ze leren. In de kern van elke LLM zit een neuraal netwerk dat wordt getraind op enorme hoeveelheden tekst. Deze training helpt de LLM om patronen in taal te leren, zoals grammatica, zinsstructuur en zelfs context, zodat het kan reageren wanneer het nieuwe gegevens tegenkomt.
Een LLM "begrijpt" taal echter niet op dezelfde manier als mensen dat doen. In plaats daarvan voorspelt het het meest waarschijnlijke volgende woord in een reeks op basis van de input die het ontvangt. Als je bijvoorbeeld een vraag stelt, is het model getraind om het volgende woord te voorspellen, en gebruikt die voorspelling om het volgende woord te raden, enzovoort. Dit doet het door patronen te leren zoals ‘het werkwoord komt na het onderwerp’ (in het Engels) en ‘een meervoudig onderwerp moet gevolgd worden door een meervoudig werkwoord’. Na verloop van tijd vormen deze voorspellingen een samenhangend antwoord.
Dankzij vooruitgang in neurale netwerken en rekenkracht zijn LLM's in staat geworden om veel geavanceerdere voorspellingen te doen. Moderne LLM's zoals GPT-3 voorspellen niet alleen woorden binnen een zin, maar gebruiken ook context uit hele paragrafen om nauwkeurigere antwoorden te genereren. Wanneer ze getraind worden op specifieke datasets, zoals vraag-en-antwoord-paren van forums, leren ze patronen zoals "een vraag wordt meestal gevolgd door een antwoord."
Maar hier zit het probleem: omdat LLM's zijn getraind op data waarbij vragen bijna altijd antwoorden krijgen, zijn ze niet gewend om reacties te zien zoals "ik weet het niet." Dit introduceert een vooroordeel. De trainingsdata van de LLM bevatten zelden voorbeelden van onbeantwoorde vragen, waardoor het model altijd een antwoord genereert, zelfs wanneer het niet genoeg informatie heeft om dit correct te doen. Wanneer het wordt geconfronteerd met een onderwerp buiten zijn expertise, kan het model terugvallen op eenvoudigere taalkundige patronen die het heeft geleerd, wat kan resulteren in een onnauwkeurig of misleidend antwoord.
Dit is waarom het valideren van door LLM's gegenereerde inhoud zo belangrijk is - zonder validatie bestaat het risico dat onjuiste informatie als feit wordt geaccepteerd.
Waarom Validatie Tegen Benchmarktests Alleen Niet Voldoende Is
De traditionele aanpak voor het testen van algoritmen houdt in dat een model wordt getraind op één dataset (A) en vervolgens wordt geëvalueerd op een aparte dataset (B). Deze methode wordt veel toegepast voor het beoordelen van LLM’s, net zoals dat eerder werd gedaan voor modellen in bijvoorbeeld beeldherkenning en technieken in machine learning, zoals random forests en beslisbomen. Voor betrouwbare meetresultaten is het cruciaal om overlap tussen datasets A en B te vermijden; wanneer trainings- en testdata elkaar overlappen, raken de evaluatieresultaten namelijk “besmet” en minder betrouwbaar. Bij kleinere modellen met gecontroleerde, vaak numerieke data is doorgaans duidelijk welke data in de training is gebruikt. LLM’s vormen echter een unieke uitdaging: vaak is onduidelijk welke data voor training is gebruikt. Voor veel state-of-the-art modellen blijft de trainingsdata onbekend, en zelfs wanneer deze wel bekend is, maakt het enorme volume aan data het lastig om de oorsprong volledig te achterhalen.
Dit gebrek aan transparantie, gecombineerd met de populariteit van bepaalde benchmark-datasets, verhoogt de kans op onbedoelde overlap tussen trainings- en testdata, wat prestatiebeoordelingen kan vertekenen. Daarnaast blijkt uit onderzoek van Mirzadeh et al. (2024) dat veel benchmark-datasets statisch zijn en mogelijk niet de prestaties van een model evalueren onder verschillende scenario’s of vraagcomplexiteiten. Om deze tekortkomingen aan te pakken, zijn nieuwe methoden om LLM’s beter te evalueren onderzocht. Onderzoekers voegden een extra clausule toe die relevant lijkt voor een subset van vragen in de GSM8K - een populaire benchmarkdataset voor school-wiskunde problemen (Cobbe et al., 2021).
Mirzadeh et al. (2024) observeerden daardoor aanzienlijke prestatieafnames (tot 65%) bij de topmodellen. Deze extra clausule veranderde de vereiste redenering niet, maar introduceerde kleine variaties die de robuustheid van de modellen uitdaagden. Dergelijke inzichten tonen aan hoe zelfs kleine veranderingen de output van een LLM
Hoe LLM-gegenereerde Inhoud te Valideren?
In praktische toepassingen is het van essentieel belang om ervoor te zorgen dat een LLM nauwkeurige antwoorden geeft. Hier zijn enkele van onze favoriete methoden die we bij Notilyze gebruiken om inhoud te valideren en het risico op fouten te verminderen:
1. Feedback van Experts/Eindgebruikers
Het verzamelen van feedback van gebruikers of inhoudsdeskundigen is een andere cruciale manier om de nauwkeurigheid van LLM-antwoorden te waarborgen. Door het gebruikers gemakkelijk te maken om aan te geven waarom ze het niet eens zijn met een bepaald antwoord, kunnen ontwikkelaars updates prioriteren en de prestaties van het model in de loop van de tijd verbeteren. Deze feedbackloop is essentieel voor het continu verfijnen van het model.
2. LLM-als-Rechter
Deze methode houdt in dat een tweede LLM wordt gebruikt om het door de eerste LLM gegeven antwoord te evalueren. Nadat LLM ‘A’ een antwoord genereert, kan LLM ‘B’ de kwaliteit ervan beoordelen op basis van een reeks criteria die door experts zijn opgesteld. Deze benadering maakt een meer geautomatiseerde vorm van validatie mogelijk, terwijl nog steeds wordt voldaan aan de normen die door professionals in het veld zijn vastgesteld.
3. Mens-in-de-loop
Hoewel het opnemen van menselijke validatie meer middelen kan vergen, is het nog steeds een van de meest effectieve manieren om nauwkeurigheid te waarborgen. In veel toepassingen helpen LLM's experts door mogelijke antwoorden te geven, die de experts vervolgens valideren. Deze aanpak kan workflows aanzienlijk versnellen door de tijd die experts aan onderzoek besteden te verminderen, zodat ze zich kunnen concentreren op het verifiëren van de suggesties van het model.
4. LLM's dwingen om Referenties te vermelden
Ten slotte is een van de meest effectieve manieren om transparantie en vertrouwen te vergroten het vereisen dat LLM's referenties verstrekken bij hun antwoorden. Door de bron van hun informatie op te nemen, kunnen gebruikers eenvoudig de nauwkeurigheid van een antwoord verifiëren. Deze methode is vooral nuttig in combinatie met Retrieval-Augmented Generation (RAG), waarbij het model antwoorden koppelt aan specifieke interne documenten. Gebruikers kunnen direct toegang krijgen tot het bronmateriaal, wat context en duidelijkheid toevoegt aan de verstrekte informatie.
Nieuwsgierig hoe LLM's de mogelijkheden van jouw organisatie kunnen versterken? Neem contact met ons op, zodat we je kunnen helpen!
Contact:
Eric Mathura
E-mail: eric.mathura@notilyze.com
Telefoon: +31 6 53640514
Bronnen
Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., ... & Schulman, J. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168. Retrieved from: https://arxiv.org/pdf/2110.14168
Mirzadeh, I., Alizadeh, K., Shahrokhi, H., Tuzel, O., Bengio, S., & Farajtabar, M. (2024). GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. arXiv preprint arXiv:2410.05229. Retrieved from: https://arxiv.org/pdf/2410.05229