Første udgivelse af data til træning af danske sprogmodeller
13. januar 2026
Digitaliseringsstyrelsen, Rigsarkivet og Det Kgl. Bibliotek har netop frigivet den første mængde af tekstdata, som kan anvendes til træning af danske sprogmodeller.
Der er nærmere bestemt tale om 378,5 mio. ord fra Det Kgl. Biblioteks kuraterede samling af publicerede statslige publikationer og 7,4 mio. ord fra samlingen af historiske breve, som er klar til at blive brugt. Frigivelsen af tekstdata er resultatet af det nye samarbejde om tilgængeliggørelse af flere danske tekstdata, som blev igangsat med Regeringens Strategiske indsats for kunstig intelligens fra 2024.
Strategisk indsats for kunstig intelligens
Regeringens Strategiske indsats for kunstig intelligens skal accelerere en sikker og ansvarlig udvikling og udnyttelse af kunstig intelligens i Danmark. Konkret er der med strategien søsat fire initiativer, som alle skal være med til at bane vejen for bedre anvendelse og udvikling af kunstig intelligens i Danmark:
- Den Digitale Taskforce for kunstig intelligens
- Center for Kunstig Intelligens i Samfundet (CAISA)
- Sikker platform for udvikling af transparente danske sprogmodeller
- Tilgængeliggørelse af danske tekstdata
Initiativ 4 fokuserer på at frembringe data, som kan anvendes til udvikling af dansk sprogteknologi. Initiativet består af et samarbejde mellem Det Kgl. Bibliotek, Rigsarkivet og Digitaliseringsstyrelsen, som i fællesskab arbejder på at tilgængeliggøre tekstdata på baggrund af de store arkiver hos Det Kgl. Bibliotek, Rigsarkivet og Folketinget.
Flere tilgængelige danske tekstdata
Adgang til gode tekstdata er afgørende for kvaliteten af fremtidens AI-løsninger. Hvis der ikke er nok danske data, vil computerne have svært ved at forstå det danske sprog og den danske kultur og dermed sværere ved at fungere i en dansk kontekst. På den måde skal Initiativ 4 medvirke til, at dansk sprog, kultur og værdier i højere grad repræsenteres i teknologiske løsninger. Det betyder, at både offentlige og private aktører får flere anvendelsesmuligheder for så vidt angår ny teknologi.
Initiativet bestræber sig på løbende at levere data med en ensartet struktur og standardiserede formater, så det bliver effektivt og overskueligt at arbejde med de tilgængeliggjorte tekstdata til udvikling af sprogmodeller.
Flere tekstdata på vej i regi af initiativ 4
Samarbejdspartnerne i initiativet arbejder løbende med at sikre juridiske afklaringer i forhold til ophavsret og persondata, så der løbende kan tilføjes flere tekstdata.
Der arbejdes for nuværende udelukkende med tekstdata, som i forvejen kan findes på internettet, men som ikke er blevet teknisk efterbehandlet. Det gælder fx Rigsarkivets Arkivalier Online.
Derudover vil de næste udgivelser af tekstdata indeholde data fra kommunale byrådsmøder, flere tekstdata fra Det Kgl. Bibliotek samt udvalgte kilder fra Folketinget.
I Digitaliseringsstyrelsen håber vi, at så mange som muligt anvender de nyligt frigivne data til udvikling eller bare går på opdagelse i datasættet. Giv os endelig dine bemærkninger eller kommentarer med på vejen på info@sprogteknologi.dk.