Skip to main content
Tilbage

Det har Sprogteknologi.dk lavet i 2025!

18. december 2025


År 2025 går på hæld, og det samme gør det syvende år, hvor Digitaliseringsstyrelsen har arbejdet med det nationale initiativ sprogteknologi.dk. Vi vil gerne benytte lejligheden at give et kort tilbageblik på årets arbejde.
 

Året startede med en opgradering af sitet sprogteknologi.dk, som har medført en forbedret metadatakvalitet i kataloget over sprogressourcer, da der nu kan håndteres flere metadata. Sitet indeholder nu også en række undersider, som er dedikeret til videndeling om praktiske cases, danske sprogteknologiske projekter, EU-samarbejde, Det Centrale Ordregister og evaluering af sprogmodeller. Sidst, men ikke mindst, betød det også et nyt visuelt udtryk, som med en stærk farvepalette og ny typografi har givet et mere tidssvarende udtryk, som skal bidrage til at styrke opmærksomheden omkring arbejdet for at udvikle og tilgængeliggøre danske sprogdata.

I regi af Digitaliseringsstyrelsens internationale udsyn, er vi tiltrådt et nyt projekt, Compar:IA, som udspringer fra den franske regering og har til formål at få brugere til at sammenligne kvaliteten af svar på deres egne spørgsmål/prompts fra to sprogmodeller via en såkaldt arena-tilgang. De konkurrerende sprogmodeller kan vælges via forskellige metoder, fx tilfældig udvælgelse, hvor de er anonyme indtil de har afgivet svar eller manuel udvælgelse. De danske projektparter er Danish Foundation Models og Digitaliseringsstyrelsen. Den danske titel på projektet er AI-arenaen og formålet med vores engagement fra dansk side er at kunne inkludere danske modeller og få dansk repræsenteret, foruden den overordnede målsætning for projektet om at opkvalificere samtalen om store sprogmodeller, udgive tekstdatasæt af høj kvalitet og give målbare kriterier til brugere der skal benytte sig af store sprogmodeller. 

Digitaliseringsstyrelsen har også oprettet en dansk referencegruppe for Alliancen for sprogteknologi (ALT-EDIC) for at sikre danske interesser og behov i det europæiske samarbejde om sprogteknologi. ALT-EDIC er et EU-støttet konsortium, der udvikler sprogteknologisk infrastruktur til at styrke innovation og digital suverænitet i Europa.  

Open Data DK og Digitaliseringsstyrelsen har det seneste år samarbejdet om et projekt, der skal skabe flere åbne kommunale sprogdata til AI. Fokus har i første omgang været på data fra byrådsmøder, fx dagsordener, referater og bilag. Projektet har handlet om at afklare de juridiske forudsætninger for at udstille og videreanvende dataene til brug for sprogmodeller samt lave en PoC på data fra fem kommuner. Datasættet udgives primo 2026. 

I regi af Initiativ 4 under regeringens Strategiske indsats for kunstig intelligens skal der tilgængeliggøres danske tekstdata til udvikling af sprogteknologi. Det skal sikre, at ikke bare dansk sprog, men også dansk kultur og værdier, bliver en del af fremtidens AI-løsninger. Samarbejdet mellem Digitaliseringsstyrelsen, Rigsarkivet, Det Kgl. Bibliotek, Kulturministeriet og Folketinget gør det muligt at samle og dele tekstdata fra offentlige kilder, arkiver og udgivelser. Målsætningen er at tilgængeliggøre data svarende til omkring 300 milliarder tokens. Projektet er delt op i fire spor: 1) Åbne tekstdata, som er offentligt tilgængelige tekster, fx fra hjemmesider og offentlige arkiver, 2) Adgangsbegrænsede tekstdata, som er lukkede arkiver og samlinger, fx ESDH-systemer som er afleveret til Rigsarkivet, 3) Ophavsretsbelagte tekstdata, som er udgivelser fra journalister eller forfattere, hvor der skal indgås licensaftaler med rettighedsindehaverne og 4) Afklaring af mulige lovændringer, hvor der afdækkes, om ændringer eller tilføjelser til eksisterende lovgivning kan åbne nye muligheder. I 2025 har der primært været fokus på at få de juridiske og tekniske forudsætninger på plads. Der vil løbende blive udgivet tekstsamlinger frem mod 2027.

Tilbage i august drog vi til Aarhus og festivalen Vilde Teknologier hvor Digitaliseringsstyrelsen inviterede sprogteknologi entusiaster til dialog og sparring om behovet for data til at opfylde potentialet i AI-løsninger. Vi kom hjem med en masse gode use cases og viden om hvor skoen trykker i anvendelsen af sprogdata og hvilke data der særligt er efterspørgsel på. Det har vi skrevet en nyhed om, som du kan læse her. Og igen i år har vi afholdt Sprogteknologisk Konference i samarbejde med Center for Sprogteknologi ved Københavns Universitet. De ca. 300 deltagere skød dagen i gang sammen med minister for digitalisering Caroline Stage Olsen og fik præsenteret en masse lærerige oplæg og posters, som du kan finde her. Det er altid fedt med den årlige konference, hvor vi bliver bekræftet i, at sprogteknologi er en vigtig dagsorden i det danske og internationale samfund!

Vi glæder os til 2026, hvor vi har mange spændende og vigtige indsatser på programmet, heriblandt mere tekstdata i regi af initiativ 4, datasæt til at understøtte evaluering, domænespecifikke datasæt, planlægning af Sprogteknologisk konference 2026 og meget mere.