Flere Nyheder

Det har sprogteknologi.dk lavet i 2024!
18. december 2024

2024 er næsten ovre, og det markerer det sjette år, hvor Digitaliseringsstyrelsen har arbejdet med det nationale initiativ sprogteknologi.dk. Vi vil gerne bruge anledningen...
Læs mere

Sprogteknologisk Konference 2024 er afholdt!
6. december 2024

Sprogteknologisk konference 2024 blev afholdt for fjerde år i træk. Igen i år var konferencen et samlingspunkt for aktører og personer med interesse for dansk...
Læs mere

Det gik du glip af til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. november 2024

Evaluering og benchmarking af sprogmodeller er en forudsætning for dels at finde de bedst egnede løsninger til en given opgave, og dels for at målrette det videre...
Læs mere

Nyt datasæt til evaluering af sprogmodellers evne til at forstå danske talemåder og faste udtryk
20. november 2024

Hvad forstår sprogmodeller sig på agurkesalat? Tror de, der er mere mellem himmel og jord? Ved de hvad vej, vinden blæser? Og har de ondt af det, de ikke ved? Som...
Læs mere

Hvordan kan store generative sprogmodeller trænes så de forstår både det danske sprog, men også den danske kultur?
13. november 2024

Forskningsgruppen NLPnorth fra IT-Universitet i København er sammen med Aalborg Universitet ved Pioneer Centre for AI i gang med at sætte fokus på forskellige aspekter...
Læs mere

Ny rapport evaluerer byg-selv-løsninger mod generelle modeller som GPT-4

17. december 2024

Dekorativt indhold

En ny rapport fra Analyse & Tal og TrygFonden kigger nærmere på, hvorvidt det kan betale sig for organisationer at bygge egne specialiserede sprogmodeller fremfor at bruge generelle modeller som GPT-4 til at udføre konkrete opgaver. På baggrund af rapporten tyder meget på, at der kan være markante fordele at hente ved at kaste sig over ’byg-selv’-projekter.

I september 2023 fik vi hos sprogteknologi.dk fornøjelsen af at tilbyde en specialeplads til Anna Ørtoft, der på daværende tidspunkt var kandidatstuderende i Social Data Science på Københavns Universitet. Anna havde kastet sig ud i et speciale med fokus på at undersøge, hvor godt ChatGPT klarede sig i at identificere sproglige angreb og anerkendelse på sociale medier sammenlignet med to sprogmodeller, der er specifikt trænet til formålet. Anna tog efterfølgende specialet med videre i sit job hos Analyse & Tal sammen med Asger Neesgaard Sand, Mikkeline Sofie Skjerning Thomsen og Mira Rosen Sørensen, der har udviklet de to modeller, og som nu i samarbejde med TrygFonden har udgivet en omfattende rapport, der bygger videre på specialet.

Rapporten sammenligner Analyse & Tals modeller A&ttack 1 og A&ttack 2.5, som er trænet til at identificere sproglige angreb i tekst, med OpenAIs GPT-4 Turbo med henblik på at afdække 1) hvor anvendelige de forskellige modeller er til at identificere angreb i den offentlige debat på dansk Facebook, og 2) hvorvidt generative modeller bør overvejes som et reelt alternativ til superviserede klassifikationsalgoritmer? For at besvare de to spørgsmål testes modellerne på fem parametre, nemlig 1) performance, 2) fairness, 3) stabilitet, 4) pris, og 5) energiforbrug. Derudover testes GPT-4 på endnu en parameter: annotørpotentiale, der undersøger om GPT-4 kan bruges som medannotør til at generere træningsdata til superviserede modeller.

Da A&ttack-modellerne er stabile, superviserede klassifikationsmodeller, vil de altid generere det samme output ved et givent input. Det samme kan ikke siges for GPT-4, der er en generativ model, og som dermed svarer stokastisk. Af den grund har man testet GPT-4 med udgangspunkt i 10 varierende prompts, som er konstrueret med udgangspunkt i aktuel forskning og prompting-teknikker som zero-shot og few-shot.

Det er kun på performance, altså modellernes evne til at identificere sproglige angreb, at GPT-4 kan måle sig med A&ttack 2.5. Den af de 10 prompts, der har fået GPT-4 til at performe bedst, har nemlig en F1 score på 0,74, hvilket blot er 0,01 lavere end A&ttack 2.5, der scorer 0,75. Rapporten konkluderer dermed, at på performance alene, vil GPT-4 godt kunne bruges til at klassificere angreb i den offentlige debat. Men så snart man tager højde for de øvrige parametre, tegner der sig et andet billede.

For langt de fleste parametre peger rapporten nemlig på, at Analyse & Tals egen model slår GPT-4 markant. For eksempel anslår rapporten, at klassificering af 72 mio. opslag og kommentarer med GPT-4 Turbo vil koste 1,3 mio. kr. i direkte udgifter til OpenAI. Det koster derimod 0,4 mio. kr. at bygge og anvende A&ttack-modellen til samme opgave. At anvende GPT-4 Turbo formodes altså at koste mere end tre gange så meget som selv at bygge og anvende en specialiseret model. Også på strømforbrug ses en markant forskel på de to tilgange. Her anslår rapporten med udgangspunkt i konservative estimater, at en analyse af 72 mio. opslag og kommentarer med GPT-4 vil forbruge hele 6.900 kWh – og her er der ikke medregnet strømforbrug i træningen af GPT-4. Til sammenligning har træning af A&ttack 2.5 samt klassificeringen af de 72 mio. opslag og kommentarer forbrugt 113 kWh. Og omsættes det til CO2-udledning, anslår rapporten, at A&ttack bruger 150 gange mindre CO2 end GPT-4 – igen uden at medregne udledning i forbindelse med træning af GPT-4.

Vi har spurgt Anna om, hvad hun synes er mest væsentligt ved rapporten. Hun siger: ”Vores konklusioner peger på, at hjemmebyg outperformer GPT-4, når vi skal bruge en model til at lave større analyser, hvor resultaterne skal benchmarkes over tid. Det vil sige, at vi mener byg-selv løsninger stadig giver mening at udvikle for at kunne sikre mere fair, bæredygtige og robuste AI-løsninger.”

Læs selv rapporten og dyk ned i hovedkonklusionerne, en introduktion til teknologierne og de en gennemgang af de forskellige evalueringsparametre. Du kan finde rapporten her.