Danish Gigaword Project - et historisk stort dansk tekstkorpus

7 Juni 2021

Danish Gigaword Project har i næsten 2 år knoklet med at udarbejde et stort dansk tekstkorpus. 

Nu er korpusset endelig udgivet, og det giver god grund til begejstring for de danske sprogteknologiske miljøer. Gigaword er nemlig, med over én milliard danske ord, et korpus af historisk stor størrelse.

En velkendt udfordring er, at fordi der er færre, som taler dansk på verdensplan, så er mængden af danske sprogdata relativt begrænset i forhold til større sprog. Det skaber problemer for udviklingen af dansk sprogteknologi, da computere skal bruge meget store mængder data for at tillære sig et sprog. I værste tilfælde kan det betyde, at fremtidige applikationer og ny teknologi ikke kan fungere i en dansk kontekst. Det er derfor vigtigt, at der kontinuerligt indsamles og udvikles danske sprogdata.
 

Projekter såsom Gigaword er i den forbindelse et væsentligt skridt i den rigtige retning, da det netop stiller et massivt dansk datasæt til rådighed. Nogle vil måske tænke, at der allerede findes en masse dansk tekst på internettet, som man ”bare” kunne tage af. Dog er der i brugen af disse tekster oftest en række juridiske restriktioner og faglige udfordringer, som kan give anledning til en del hovedpine. Specielt, hvis du skal arbejde med tekster med mange forskellige ophav.

Gigaword har samlet tekstmateriale fra en lang række forskellige kilder. Blandt andet er der materiale fra TV2 Regionerne, DanAvis, Folketinget, Retsinformation.dk, OpenSubtitles, og diverse sociale medier. De mange forskellige kilder betyder, at korpusset repræsenterer en bred række af ord og sætningskonstruktioner, hvilket forbedrer repræsentationen af dansk i korpusset. Hertil har projektet arbejdet med forskellige instrumenter for at overholde lovgivningen. Fx er der taget højde for GDPR ved, at man har sikret, at ytringer samlet fra de sociale medier ikke kan henføres til et enkelt individ. Gigaword har altså samlet data og sørget for, at datasættet lever op til juridiske forbehold. Anvenderen skal blot hente datasættet og gøre brug af det og kan gøre det med god samvittighed, da datasættet udgives med en Attribution 4.0 International (CC BY 4.0) -licens  

Det er Leon Derczynski, der er lektor på IT-Universitetet og Manuel R. Ciosici fra University of Southern California, som har været tovholder på projektet. De har samlet hjælp fra en række private og offentlige organisationer og på den måde fået skabt et solidt bidrag til udviklingen af dansk sprogteknologi. Du kan læse mere om de medvirkende i den medfølgende artikel, som er udgivet i forbindelse med Gigaword-projektet. Du kan finde artiklen, samt læse mere om projektet på gigaword.dk.

Du kan også tilgå korpusset gennem sprogteknologi.dk her.