Ny udgivelse af danske kommunale tekstdata til træning af sprogmodeller
25. februar 2026
Tekstdata fra fem danske kommuners byråds- og miljø- og teknikudvalgsmøder er netop blevet offentliggjort på sprogteknologi.dk.
I forbindelse med et pilotprojekt om at udstille kommunale data til sprogteknologiske formål, har Digitaliseringsstyrelsen og Open Data DK indsamlet, efterbehandlet og udstillet domænespecifikke data inden for det kommunale område. Tekstdata fra referater fra byråds- og miljø- og teknikudvalgsmøder fra Aarhus Kommune, Favrskov Kommune, Kalundborg Kommune, Tønder Kommune og Vejle Kommune er nu blevet udstillet frit tilgængeligt på sprogteknologi.dk.
Datasættet består af 9 millioner ord, og Digitaliseringsstyrelsen forventer, at udgivelsen af datasættet vil gøre det lettere for danske aktører at udvikle sprogteknologiske løsninger af høj kvalitet, særligt inden for den kommunale sektor, men også i andre forvaltningsmæssige kontekster.
I dette pilotprojekt er referater fra byråds- og miljø- og teknikudvalgsmøder hos de fem kommuner blevet efterbehandlet og udstillet. I den forbindelse er referater, som indeholder følsomme personoplysninger blevet frasorteret. Derudover er direkte personidentifikatorer blevet pseudonymiseret. De tilhørende bilag er i denne omgang ikke blevet behandlet og udstillet, da Digitaliseringsstyrelsen fortsat arbejder på at finde en løsning til at frasortere ophavsretligt beskyttede dokumenter.
Ud over ønsket om tilgængeliggørelse af domænespecifikke tekstdata har et formål med projektet også været at skabe mere klarhed omkring juridiske opmærksomhedspunkter i forbindelse med deling af kommunale data til sprogteknologiske formål. Derfor er der, ud over en teknisk fremgangsmåde, også udgivet en juridisk fremgangsmåde, der beskriver de tiltag der er foretaget for at mitigere mulige persondata- og ophavsretlige udfordringer i datasættet. Digitaliseringsstyrelsen opfordrer dog stadig til, at man som anvender af datasættet forholder sig til, om man i egen anvendelse agerer inden for lovgivningen.
Du kan tilgå datasættet via sprogteknologi.dk her.