Workshop om behovet for data til sprogteknologiske løsninger
11. december 2025
Efterspørgslen på data til sprogteknologiske løsninger handler ikke alene om adgangen til data, men også om de rammer og forudsætninger, som gør, at data er anvendeligt, lovligt og noget, som anvendere har tillid til at kunne benytte.
Digitaliseringsstyrelsen havde inviteret 17 deltagere fra forskellige virksomheder og myndigheder til en workshop om behovet for data til sprogteknologiske løsninger fredag d. 29. august 2025.
Workshoppen tog udgangspunkt i en refleksions- og dialogopgave om anvendelse af data og sprogteknologi på baggrund af konkrete use cases, som blev præsenteret som oplæg af både offentlige og private aktører. Oplæggene, som blev afholdt af Systematic, Alexandra Instituttet og Region Midtjylland, bidrog både til videndeling samt til at skabe et fælles grundlag for de videre drøftelser senere på dagen.
Opsamling fra workshoppen
Der blev fremført flere vigtige pointer både under oplæggene og i refleksions- og dialogopgaven. Det blev blandt andet pointeret, at jura er et komplekst område i arbejdet med data, særligt når det drejer sig om sundhedsdata og følsomme personoplysninger. Det blev også nævnt, at lovgivningen på området fortsat er i udvikling – særligt i forbindelse med træning af kunstig intelligens og anvendelsen af sprogdata. Under drøftelserne blev der lagt vægt på, at der er behov for juridisk afklaring, men at det er uklart, hvem der kan give denne afklaring samt hvordan man som organisation skal navigere i det, herunder særligt mellem EU-regulering og national lovgivning. Derudover var der flere, der oplevede, at juridiske spørgsmål fylder meget i deres respektive projekter, og at det kan skabe tillid, hvis juraen er tænkt ind tidligt i projektet. Deltagerne nævnte dog også, at der var tvivl om, hvilket juridisk niveau, der var behov for, og om det var nødvendigt med ekspertviden eller om god praksis kunne være nok.
Der blev også drøftet forskellene i teknologisk ansvar og anvendelse, hvor det blev pointeret, at det er væsentligt at skelne mellem direkte behandling af følsomme personoplysninger og udvikling af teknologi, der kan anvendes til en sådan behandling, men hvor der i udviklingsfasen ikke behandles følsomme personoplysninger. På samme vis er det væsentligt at skelne mellem, om følsomme personoplysninger behandles som led i udviklingen eller i driften af et beslutningsunderstøttende værktøj, som enten direkte eller potentielt kan have konsekvenser for de registrerede, eller om oplysningerne bruges til at udvikle andre typer af værktøjer. Disse sondringer har betydning for både compliancekrav og ansvar, og på workshoppen blev der derfor pointeret, at disse sondringer bør adresseres tidligt i projektforløbet.
Der blev i løbet af dagen også drøftet betydningen af mængden af data. I nogle tilfælde blev det nævnt, at relativt små datasæt er nok til at træne eller validere en løsning, hvilket peger på, at der er et behov for relevante og målrettede data. Dette afhænger dog af den specifikke kontekst, da store mængder af data kan være relevant i andre henseender fx til udvikling af grundmodeller. På workshoppen blev det derudover nævnt, at det specifikke databehov har en betydning for, hvordan man planlægger sin indsamling og behandling af sprogdata.
I forbindelse med behandling af sprogdata, herunder især følsomme personoplysninger, blev der drøftet hvilke teknologiske og organisatoriske løsninger, som kan mindske sikkerhedsrisici og skabe tillid. Her blev blandt andet lokal databehandling og kryptering nævnt som eksempler.
Fremtidsperspektiver
Dialogen fra workshoppen peger overordnet set på, at efterspørgslen på data ikke alene handler om adgangen til data, men også om de rammer og forudsætninger, som gør, at data er anvendeligt, lovligt og tillidsvækkende. Ud fra drøftelserne vil vi i dette afsnit beskrive nogle perspektiver, som vi udleder, er relevante at tage med videre i arbejdet med dansk sprogteknologi.
Til workshoppen var der konsensus om, at der er en usikkerhed omkring gældende lovgivning i forbindelse med behandling af data både inden for Danmark og i EU, hvilket kan skabe en tilbageholdenhed i brugen af data. Workshoppens deltagere efterlyste i den sammenhæng en samlet afdækning af, hvordan juridisk kompleksitet i forbindelse med behandling af data påvirker virksomheder og offentlige aktørers villighed til at anvende data. I forlængelse heraf blev der efterspurgt vejledninger eller standarder, for, hvordan man kan imødekomme de juridiske barrierer og sørge for, at man behandler data på en lovlig og forsvarlig måde. I samme henseende blev der efterspurgt undersøgelser af, hvordan sikkerhedsløsninger kan øge villigheden til at dele og arbejde med data samt at kortlægge efterspørgslen på teknologiske løsninger, der kan gøre arbejdet med personoplysninger og følsomme personoplysninger mere sikkert.
I forhold til at skabe bedre forudsætninger for, hvordan man arbejder med data, så er Digitaliseringsstyrelsen i gang med at arbejde på, hvordan man kan lykkes med at tilgængeliggøre data på en lovmedholdelig og forsvarlig måde. I samarbejde med Open Data DK er Digitaliseringsstyrelsen i gang med et pilotprojekt om at tilgængeliggøre tekstdata fra fem kommuners byråds- og miljø- og teknikudvalgsmøder. De fem kommuner er Aarhus Kommune, Favrskov Kommune, Kalundborg Kommune, Tønder Kommune og Vejle Kommune. I den forbindelse har Digitaliseringsstyrelsen udarbejdet en juridisk protokol og en teknisk protokol, som vil blive offentliggjort, så andre kan få inspiration til, hvordan man kan arbejde med data. Digitaliseringsstyrelsen opfordrer også andre myndigheder og virksomheder til at dele deres erfaringer, vurderinger og fremgangsmåder.
I forbindelse med efterspørgslen af data, arbejder Digitaliseringsstyrelsen lige nu med Initiativ 4 i Regeringens Strategiske indsats for kunstig intelligens, som handler om at tilgængeliggøre åbne danske tekstdata. Med initiativet tilgængeliggøres åbne danske tekstdata fra Rigsarkivet, Det Kgl. Bibliotek og Folketinget. Derudover har Digitaliseringsstyrelsen sammen med Danish Foundation Models indgået et europæisk samarbejde om et projekt kaldet AI-arenaen. AI-Arenaen er et projekt, som er udviklet af det franske kulturministerium, der har til formål at evaluere sprogmodeller med udgangspunkt i brugerens egne inputs og tilgængeliggøre datasæt specifikt til evalueringsformål. Med dette projekt fokuseres der ikke blot på mængden af data, men også justering af fx tonen i data, som kan være anderledes alt efter, hvilket domæne, man befinder sig i. Med disse projekter håber Digitaliseringsstyrelsen at kunne være med til at imødekomme efterspørgslen på data.