Ny rapport evaluerer byg-selv-løsninger mod generelle modeller som GPT-4
17. december 2024
En ny rapport fra Analyse & Tal og TrygFonden kigger nærmere på, hvorvidt det kan betale sig for organisationer at bygge egne specialiserede sprogmodeller fremfor at bruge generelle modeller som GPT-4 til at udføre konkrete opgaver. På baggrund af rapporten tyder meget på, at der kan være markante fordele at hente ved at kaste sig over ’byg-selv’-projekter.
I september 2023 fik vi hos sprogteknologi.dk fornøjelsen af at tilbyde en specialeplads til Anna Ørtoft, der på daværende tidspunkt var kandidatstuderende i Social Data Science på Københavns Universitet. Anna havde kastet sig ud i et speciale med fokus på at undersøge, hvor godt ChatGPT klarede sig i at identificere sproglige angreb og anerkendelse på sociale medier sammenlignet med to sprogmodeller, der er specifikt trænet til formålet. Anna tog efterfølgende specialet med videre i sit job hos Analyse & Tal sammen med Asger Neesgaard Sand, Mikkeline Sofie Skjerning Thomsen og Mira Rosen Sørensen, der har udviklet de to modeller, og som nu i samarbejde med TrygFonden har udgivet en omfattende rapport, der bygger videre på specialet.
Rapporten sammenligner Analyse & Tals modeller A&ttack 1 og A&ttack 2.5, som er trænet til at identificere sproglige angreb i tekst, med OpenAIs GPT-4 Turbo med henblik på at afdække 1) hvor anvendelige de forskellige modeller er til at identificere angreb i den offentlige debat på dansk Facebook, og 2) hvorvidt generative modeller bør overvejes som et reelt alternativ til superviserede klassifikationsalgoritmer? For at besvare de to spørgsmål testes modellerne på fem parametre, nemlig 1) performance, 2) fairness, 3) stabilitet, 4) pris, og 5) energiforbrug. Derudover testes GPT-4 på endnu en parameter: annotørpotentiale, der undersøger om GPT-4 kan bruges som medannotør til at generere træningsdata til superviserede modeller.
Da A&ttack-modellerne er stabile, superviserede klassifikationsmodeller, vil de altid generere det samme output ved et givent input. Det samme kan ikke siges for GPT-4, der er en generativ model, og som dermed svarer stokastisk. Af den grund har man testet GPT-4 med udgangspunkt i 10 varierende prompts, som er konstrueret med udgangspunkt i aktuel forskning og prompting-teknikker som zero-shot og few-shot.
Det er kun på performance, altså modellernes evne til at identificere sproglige angreb, at GPT-4 kan måle sig med A&ttack 2.5. Den af de 10 prompts, der har fået GPT-4 til at performe bedst, har nemlig en F1 score på 0,74, hvilket blot er 0,01 lavere end A&ttack 2.5, der scorer 0,75. Rapporten konkluderer dermed, at på performance alene, vil GPT-4 godt kunne bruges til at klassificere angreb i den offentlige debat. Men så snart man tager højde for de øvrige parametre, tegner der sig et andet billede.
For langt de fleste parametre peger rapporten nemlig på, at Analyse & Tals egen model slår GPT-4 markant. For eksempel anslår rapporten, at klassificering af 72 mio. opslag og kommentarer med GPT-4 Turbo vil koste 1,3 mio. kr. i direkte udgifter til OpenAI. Det koster derimod 0,4 mio. kr. at bygge og anvende A&ttack-modellen til samme opgave. At anvende GPT-4 Turbo formodes altså at koste mere end tre gange så meget som selv at bygge og anvende en specialiseret model. Også på strømforbrug ses en markant forskel på de to tilgange. Her anslår rapporten med udgangspunkt i konservative estimater, at en analyse af 72 mio. opslag og kommentarer med GPT-4 vil forbruge hele 6.900 kWh – og her er der ikke medregnet strømforbrug i træningen af GPT-4. Til sammenligning har træning af A&ttack 2.5 samt klassificeringen af de 72 mio. opslag og kommentarer forbrugt 113 kWh. Og omsættes det til CO2-udledning, anslår rapporten, at A&ttack bruger 150 gange mindre CO2 end GPT-4 – igen uden at medregne udledning i forbindelse med træning af GPT-4.
Vi har spurgt Anna om, hvad hun synes er mest væsentligt ved rapporten. Hun siger: ”Vores konklusioner peger på, at hjemmebyg outperformer GPT-4, når vi skal bruge en model til at lave større analyser, hvor resultaterne skal benchmarkes over tid. Det vil sige, at vi mener byg-selv løsninger stadig giver mening at udvikle for at kunne sikre mere fair, bæredygtige og robuste AI-løsninger.”
Læs selv rapporten og dyk ned i hovedkonklusionerne, en introduktion til teknologierne og de en gennemgang af de forskellige evalueringsparametre. Du kan finde rapporten her.