Tilbage

Første udgivelse af data til træning af danske sprogmodeller

13. januar 2026

Digitaliseringsstyrelsen, Rigsarkivet og Det Kgl. Bibliotek har netop frigivet den første mængde af tekstdata, som kan anvendes til træning af danske sprogmodeller.

Der er nærmere bestemt tale om 378,5 mio. ord fra Det Kgl. Biblioteks kuraterede samling af publicerede statslige publikationer og 7,4 mio. ord fra samlingen af historiske breve, som er klar til at blive brugt. Frigivelsen af tekstdata er resultatet af det nye samarbejde om tilgængeliggørelse af flere danske tekstdata, som blev igangsat med Regeringens Strategiske indsats for kunstig intelligens fra 2024.

Strategisk indsats for kunstig intelligens

Regeringens Strategiske indsats for kunstig intelligens skal accelerere en sikker og ansvarlig udvikling og udnyttelse af kunstig intelligens i Danmark. Konkret er der med strategien søsat fire initiativer, som alle skal være med til at bane vejen for bedre anvendelse og udvikling af kunstig intelligens i Danmark:

Den Digitale Taskforce for kunstig intelligens
Center for Kunstig Intelligens i Samfundet (CAISA)
Sikker platform for udvikling af transparente danske sprogmodeller
Tilgængeliggørelse af danske tekstdata

Initiativ 4 fokuserer på at frembringe data, som kan anvendes til udvikling af dansk sprogteknologi. Initiativet består af et samarbejde mellem Det Kgl. Bibliotek, Rigsarkivet og Digitaliseringsstyrelsen, som i fællesskab arbejder på at tilgængeliggøre tekstdata på baggrund af de store arkiver hos Det Kgl. Bibliotek, Rigsarkivet og Folketinget.

Flere tilgængelige danske tekstdata

Adgang til gode tekstdata er afgørende for kvaliteten af fremtidens AI-løsninger. Hvis der ikke er nok danske data, vil computerne have svært ved at forstå det danske sprog og den danske kultur og dermed sværere ved at fungere i en dansk kontekst. På den måde skal Initiativ 4 medvirke til, at dansk sprog, kultur og værdier i højere grad repræsenteres i teknologiske løsninger. Det betyder, at både offentlige og private aktører får flere anvendelsesmuligheder for så vidt angår ny teknologi.

Initiativet bestræber sig på løbende at levere data med en ensartet struktur og standardiserede formater, så det bliver effektivt og overskueligt at arbejde med de tilgængeliggjorte tekstdata til udvikling af sprogmodeller.

Flere tekstdata på vej i regi af initiativ 4

Samarbejdspartnerne i initiativet arbejder løbende med at sikre juridiske afklaringer i forhold til ophavsret og persondata, så der løbende kan tilføjes flere tekstdata.

Der arbejdes for nuværende udelukkende med tekstdata, som i forvejen kan findes på internettet, men som ikke er blevet teknisk efterbehandlet. Det gælder fx Rigsarkivets Arkivalier Online.

Derudover vil de næste udgivelser af tekstdata indeholde data fra kommunale byrådsmøder, flere tekstdata fra Det Kgl. Bibliotek samt udvalgte kilder fra Folketinget.

I Digitaliseringsstyrelsen håber vi, at så mange som muligt anvender de nyligt frigivne data til udvikling eller bare går på opdagelse i datasættet. Giv os endelig dine bemærkninger eller kommentarer med på vejen på info@sprogteknologi.dk.

Flere nyheder

Ny udgivelse af danske kommunale tekstdata til træning af sprogmodeller
25. februar 2026

Tekstdata fra fem danske kommuners byråds- og miljø- og teknikudvalgsmøder er netop blevet offentliggjort på sprogteknologi.dk. I forbindelse med et pilotprojekt...
More

Det har Sprogteknologi.dk lavet i 2025!
18. december 2025

År 2025 går på hæld, og det samme gør det syvende år, hvor Digitaliseringsstyrelsen har arbejdet med det nationale initiativ sprogteknologi.dk. Vi vil...
More

Workshop om behovet for data til sprogteknologiske løsninger
11. december 2025

Efterspørgslen på data til sprogteknologiske løsninger handler ikke alene om adgangen til data, men også om de rammer og forudsætninger, som gør, at...
More

Sprogteknologisk Konference 2025 er afholdt!
20. november 2025

Fredag den 14. november samlede Digitaliseringsstyrelsen og Center for Sprogteknologi for femte år i træk forskere, praktikere, myndigheder og andre fagfolk til årets...
More

Kom til Sprogteknologisk Konference 2025 d. 14. november på Københavns Universitet
9. september 2025

Digitaliseringsstyrelsen og Center for Sprogteknologi ved KU inviterer til dette års Sprogteknologisk Konference d. 14. november 2025 For femte år i træk samler...
More