Tilbage

Danish Gigaword Project - et historisk stort dansk tekstkorpus

7. juni 2021

Dekorativt element

Danish Gigaword Project har i næsten 2 år knoklet med at udarbejde et stort dansk tekstkorpus. Nu er korpusset endelig udgivet, og det giver god grund til begejstring for de danske sprogteknologiske miljøer. Gigaword er nemlig, med over én milliard danske ord, et korpus af historisk stor størrelse.

En velkendt udfordring er, at fordi der er færre, som taler dansk på verdensplan, så er mængden af danske sprogdata relativt begrænset i forhold til større sprog. Det skaber problemer for udviklingen af dansk sprogteknologi, da computere skal bruge meget store mængder data for at tillære sig et sprog. I værste tilfælde kan det betyde, at fremtidige applikationer og ny teknologi ikke kan fungere i en dansk kontekst. Det er derfor vigtigt, at der kontinuerligt indsamles og udvikles danske sprogdata.

Projekter såsom Gigaword er i den forbindelse et væsentligt skridt i den rigtige retning, da det netop stiller et massivt dansk datasæt til rådighed. Nogle vil måske tænke, at der allerede findes en masse dansk tekst på internettet, som man ”bare” kunne tage af. Dog er der i brugen af disse tekster oftest en række juridiske restriktioner og faglige udfordringer, som kan give anledning til en del hovedpine. Specielt, hvis du skal arbejde med tekster med mange forskellige ophav.

Gigaword har samlet tekstmateriale fra en lang række forskellige kilder. Blandt andet er der materiale fra TV2 Regionerne, DanAvis, Folketinget, Retsinformation.dk, OpenSubtitles, og diverse sociale medier. De mange forskellige kilder betyder, at korpusset repræsenterer en bred række af ord og sætningskonstruktioner, hvilket forbedrer repræsentationen af dansk i korpusset. Hertil har projektet arbejdet med forskellige instrumenter for at overholde lovgivningen. Fx er der taget højde for GDPR ved, at man har sikret, at ytringer samlet fra de sociale medier ikke kan henføres til et enkelt individ. Gigaword har altså samlet data og sørget for, at datasættet lever op til juridiske forbehold. Anvenderen skal blot hente datasættet og gøre brug af det og kan gøre det med god samvittighed, da datasættet udgives med en Attribution 4.0 International (CC BY 4.0) -licens

Det er Leon Derczynski, der er lektor på IT-Universitetet og Manuel R. Ciosici fra University of Southern California, som har været tovholder på projektet. De har samlet hjælp fra en række private og offentlige organisationer og på den måde fået skabt et solidt bidrag til udviklingen af dansk sprogteknologi. Du kan læse mere om de medvirkende i den medfølgende artikel, som er udgivet i forbindelse med Gigaword-projektet. Du kan finde artiklen, samt læse mere om projektet på gigaword.dk.

Du kan også tilgå korpusset gennem sprogteknologi.dk her.

Flere nyheder

Ny udgivelse af danske kommunale tekstdata til træning af sprogmodeller
25. februar 2026

Tekstdata fra fem danske kommuners byråds- og miljø- og teknikudvalgsmøder er netop blevet offentliggjort på sprogteknologi.dk. I forbindelse med et pilotprojekt...
More

Første udgivelse af data til træning af danske sprogmodeller
13. januar 2026

Digitaliseringsstyrelsen, Rigsarkivet og Det Kgl. Bibliotek har netop frigivet den første mængde af tekstdata, som kan anvendes til træning af danske sprogmodeller. Der...
More

Det har Sprogteknologi.dk lavet i 2025!
18. december 2025

År 2025 går på hæld, og det samme gør det syvende år, hvor Digitaliseringsstyrelsen har arbejdet med det nationale initiativ sprogteknologi.dk. Vi vil...
More

Workshop om behovet for data til sprogteknologiske løsninger
11. december 2025

Efterspørgslen på data til sprogteknologiske løsninger handler ikke alene om adgangen til data, men også om de rammer og forudsætninger, som gør, at...
More

Sprogteknologisk Konference 2025 er afholdt!
20. november 2025

Fredag den 14. november samlede Digitaliseringsstyrelsen og Center for Sprogteknologi for femte år i træk forskere, praktikere, myndigheder og andre fagfolk til årets...
More