Danoliterate-projektet evaluerer sprogmodellernes præstationer på dansk!

1. juli 2024

Sprogmodeller udvikler sig med en voldsom hast, de er blevet bedre til at løse opgaver på dansk, og de får løbende nye funktionalitet er. Hertil kommer, at de store sprogmodeller er blevet mere tilgængelige end nogensinde og alle aktører har i dag mulighed for at benytte sig af en sprogmodel.

Dekorativt indhold

HELM fra Standford. Disse evalueringer tester dog kun sprogmodellerne præstationer på engelsksprogede opgaver, og der mangler derfor evalueringsmetoder og datasæt, der tester modellerne på dansk.

Derfor har Søren i Danoliterate projektet evalueret 52 åbne og lukkede sprogmodeller på fem metrikker, herunder fx fairness, robusthed og hadtale. Modellerne er blevet testet i forskellige brugsscenarier, fx ved få dem til at løse faktuelle multiple choice-opgaver om dansk kultur eller skrive hjælpsomme svar til spørgsmål fra sociale medier. På den baggrund har han undersøgt, hvilke sprogmodeller der klarer sig bedst på givne typer af opgave og måske vigtigst af alt, hvilke udfordringer de forskellige modeller fører med sig.

Danoliterates analyse peger i retning af, at de store lukkede modeller er meget stærke på dansk, mens open-source modeller langsomt er ved at komme med ind i kampen.

"De nuværende resultater tyder på, at store, lukkede modeller fra OpenAI og Anthropic er stærke på dansk, hvor de f.eks. svarer tæt på 100% korrekt på indfødsretsprøver. Der er dog lovende resultater fra open-source udvikling, som gradvist forbedres med spændende resultater fra f.eks. DanskGPT Tiny, der har imponerende formuleringsevne på dansk, men er for lille til at mestre faktuel viden” fortæller Søren Vejlgaard Holm.

Du kan bidrage til Danoliterate projektet!

Danoliterate projektet, som er hos DTU Compute og støttet af det danske Pioneer Centre for AI, er stadigvæk i fuld sving, og der arbejdes videre med evalueringen af de store sprogmodellers præstationer på dansk. Lige nu søger projektet hjælp fra frivillige, som har lyst og mod på at sammenligne output fra forskellige sprogmodeller.

Projektet ønsker at evaluere modellerne på baggrund af menneskelige vurderinger af deres output.



Prøv selv at evaluere sprogmodeller!


”Lige meget hvordan man forsøger at evaluere teknologien, ser vi det som en vigtig vinkel at sammenligne med den menneskelige vurdering. Vi håber derfor at få så mange danskere som muligt til at deltage i vores undersøgelse, hvor man præsenteres for hemmelige modeller og skal vælge sin favorit baseret på sprogmodellernes svar på valgfri spørgsmål.” fortæller Søren Vejlgaard Holm.

Deltagerne skal afprøve mindst tre prompts for minimum ét par af sprogmodeller og vurdere, hvilken model som leverer det bedste svar. Det tager omtrent 5 - 10 minutter at bidrage, og der er behov for så mange svar som muligt.

Læs mere om Danoliterate projektet!

Hvis du gerne vil læse mere om projektet, så har Søren i samarbejde med virksomheden Alvenir skrevet følgende kandidatafhandling i forbindelse med projektet. og har en forskningsartikel undervejs, som går i dybden med spørgeskemaet.