Danish Dynaword – et bud på fremtidens datasamling
19. august 2025
Så er der en ny og stor datasamling, som giver et overblik over danske datasæt med åbne licenser, som gør op med mange af manglerne ved de nuværende åbne datasæt.
Danish Dynaword sætter en ny standard for danske tekstkorpusser ved at kombinere åbne licenser, kontinuerlig opdatering og bred domænedækning i ét samlet, community-drevet projekt. Hvor tidligere datasæt ofte er én-gangs-udgivelser, der bliver forældede, suppleres Danish Dynaword løbende med nye tekster fra juridiske dokumenter, bøger, debatfora og meget mere – alt sammen fuldt dokumenteret og reproducerbart. Det betyder, at både forskere og virksomheder nu har adgang til et levende, fremtidssikret fundament for træning af sprogmodeller, tekstanalyse og AI-innovation på dansk.
Dynaword: det løbende datasæt
Når vi skal træne store sprogmodeller – fx dem der bruges til automatiske oversættelser, spørgsmål/svar algoritmer eller talegenkendelse – kræver det enorme mængder tekst. Men det er ikke ligegyldigt, hvordan vi samler disse data ind. Tværtimod.
Grundstenen i forskning og udvikling af sprogteknologi har været datasæt, både i høj kvalitet og store mængder. De eksisterende fremgangsmåder for korpusser har typisk resulteret i udfordringer med en eller flere af følgende:
- Statiske datasæt, typisk bliver tekst indsamlet og muligvis processeret for derefter at blive udgivet uden yderligere behandling. Det ender ofte med at samle støv.
- Licenser, datasæt der laves med proprietær software eller infrastruktur risikerer at blive ramt af retslige konsekvenser.
- Gennem ’community’ og open source tilgange kan der sikres en større grad af kvalitetssikring og anvendelse end hvis det kun er begrænset til en eller flere afsendere.
Danish Dynaword viser vejen for gode datasæt
For at adressere disse udfordringer har forfatterne, som alle er en del af Danish Foundation Models-projektet og som kommer fra Aarhus Universitet, Alexandra Instituttet og København Universitet, skrevet en artikel med titlen Dynaword: From One-shot to Continuously Developed Datasets. Formålet er at opstille retningslinjer for kuratering af korpusser, som bygger på principper fra open-source tilgangen. Denne tilgang er kendetegnet ved, at et projekt aldrig er fuldendt, men løbende kan forbedres eller justeres i overensstemmelse med fremskridt inden for datagrundlag, underliggende software m.v.. Dette kan gøres gennem fællesskabsdrevne initiativer via internetplatforme, hvor kildekode, fremgangsmåder m.m. bliver dokumenteret og delt for at lette reproduktion og øge transparens.
Gennem artiklen, fremlægger forfatterne ’Danish Dynaword’, som eksemplificeringen på en mulig løsning for ovennævnte udfordringer inden for eksisterende praksisser for udvikling og anvendelse af sprogteknologiske ressourcer og værktøjer.
De foreslåede Dynaword retningslinjer ser således ud:
- Sporbar licensering/sporbare licenser: Alle datasæt i samlingen skal have en åben og sporbar licens.
- Reproducerbarhed: Det skal være muligt at udlede et datasæt af kilden, som er næsten lignende originalen.
- Dokumenteret: Datasættet skal være veldokumenteret svarende til bedste praksis inden for området.
- Udvidelsesmulig: Det bør være muligt at udvide og forbedre korpusset og metoderne bør dokumenteres.
Danish Dynaword er et proof-of-concept af retningslinjerne og alle datasæt, der er opbygget efter disse retningslinjer, vil således kunne falde under den standardiserede open-source AI definitionen nedsat af Open Source-initiativet, følge gældende lovgivning, herunder EU’s AI-forordning, samt være med til at skabe langtidsholdbare ressourcer til gavn for forskning og industrien. Retningslinjerne er lavet ud fra erfaringer fra andre succesfulde datasæt, som er lavet med inspiration i fællesskabsdrevne initiativer såsom Universal Depency Treebank og EuroEval, som bruges til at evaluere store sprogmodeller. Tilgangen opfordrer til at dele, udbrede og deltage i forbedring af retningslinjer.
Opbygning af datasæt
I Danish Dynaword udstilles der datasæt fra åbne kilder som tager udgangspunkt i tidligere projekter, såsom Danish Foundation Models, kilder der ligger på Hugging Face eller er omtalt her på sprogteknologi.dk. Andre findes gennem sociale medier, netværk og såkaldte ’issues’ i offentlige GitHub-repositorier. Fælles for datakilderne er, at de opfylder retningslinjerne ovenfor.
Der kan dog have været behov for behandling af nogle af datakilderne. Hvis man kigger på den offentlige del af Danish Gigaword, som længe var den største åbne kilde til danske tekster, er der blevet skåret en del fra – bl.a. Twitter-data og undertekstfiler, som enten er ophavsretligt beskyttet, har en usikkerhed om licens og oprindelse eller er sprogligt forvirrende.
Fælles for alle datasæt i Danish Dynaword er, at der gives et datasheet, som er et slags “ID-kort” med oplysninger om oprindelse, rettigheder og kvalitet. Desuden bliver mulige datasæt manuelt screenet, så man sikrer, at teksten er på dansk, sammenhængende og læsbart, samt har en licens der muliggør brug og deling.
Udover datasæt-specifikke behandlinger køres der også en række automatiserede kvalitetstjek for at sikre korrekt formatering (f.eks. at kolonner er korrekt opsat og ID’er er unikke), kvalitetstjek (fx detektion af dubletter og tomme tekststrenge), samt kontrol af datasheet-dokumentation. Disse tjek er med til at garantere en høj dokumentationsstandard og et minimumsniveau af datakvalitet.
Kun kilder, der lever op til kravene og er blevet tjekket, bliver inkluderet. Hvis der er tvivl om licens eller indhold, afklares dette med hjælp fra jurister eller dataansvarlige. Licenserne er givet af datakildens originale udgiver. Når et datasæt er godkendt, dokumenteres både download, datasheet og et reproducerbart script, så det kan genbruges og efterprøves kritisk.
Filtrering og udvælgelse
Ikke alt data er lige godt. Fx ser man i stigende grad afledte data, som oversættelser, syntetiske tekster eller tekster skabt af OCR behandlinger. Nogle af disse er nyttige, men andre kan skade kvaliteten af de modeller, man træner (som påpeget i bl.a. Bender et al., 2021). Der er derfor behov for en udvælgelse af ressourcer.
Dynaword inkluderer ikke maskinoversatte eller syntetiske data. Dog bliver følgende inkluderet:
- Menneskeligt transskriberet lyd (fx FTSpeech),
- Professionelle oversættelser (fx Europarl),
- OCR-scannede bøger med dokumenteret kvalitet (fx NCC-bøger).
Dokumenter behandlet med OCR bliver dobbelttjekket, og kvaliteten er beskrevet i det tilhørende datasheet.
Afledte effekter: Licensdefinitioner
En del af arbejdet med Dynaword retningslinjer er også at statuere eksempler på god praksis og standarder. I forhold til licenser, sker det jævnligt, at man finder datasæt på Hugging Face med en åben licens – men hvor selve indholdet er ophavsretligt beskyttet. Nogle gange gælder licensen kun metadata eller annotationslaget, ikke selve teksten.
Derfor har forfatterne benyttet en tredeling af licensniveauer fremlagt af Stefan Baach et al. i en forskningsartikel om bedste praksisser for åbne datasæt til træning af LLM’er fra 2025:
1. Reproducerbar: man kan genskabe datasættet.
2. Open Access: man kan hente det.
3. Åbent licenseret: man må dele, ændre og genbruge det.
Eksempler på åbent licenserede datasæt til sprogtræning er fx YouTube Commons (transskriberede videoer med CC-BY-licens), og det enorme Common Corpus med over 500 milliarder tokens fra digitaliserede aviser og bøger. Men disse gemmer også på problemer: OCR-kvaliteten er ofte ringe, og datasættene er svære at genskabe, fordi processerne bag sjældent er dokumenteret.
Begrænsninger ved Danish Dynaword
Selvom Danish Dynaword markerer et stort skridt fremad for åbne danske tekstkorpusser, er der stadig nogle aspekter, som brugere bør være opmærksomme på:
Danish Dynaword repræsenterer en markant udvidelse af offentligt licenserede danske data, men er fortsat omtrent en størrelsesorden mindre end store, web-baserede samlinger som dem, der stammer fra Common Crawl (Penedo et al., 2024; Abadji et al., 2022). Denne forskel betyder, at præ-træningsprocesser, der kræver ekstreme mængder data, muligvis vil opnå bedre resultater ved at supplere med multilinguale eller multimodale korpora. For at fastholde en fuld åben tilgang kræver udviklingen af avancerede modeller dog stadig nye metoder til data-effektiv præ-træning.
På grund af de kriterier, som Danish Dynawords er opbygget om, er samlingen skæv fordelt mod visse domæner. Eksempelvis indeholder korpusset relativt få indlæg fra sociale medier, mens juridiske tekster fylder forholdsvis meget. Det betyder, at modeller, der udelukkende trænes på Dynaword, kan få en overrepræsentation af formelt sprogbrug og mindre erfaring med uformelle genrer. Dette problem bliver mindre relevant, jo flere forskellige datasæt der bliver tilføjet til samlingen.
Under udviklingen erfarede forskerne, at selv små ændringer—som at fjerne enkelte problematiske tekster—kan være besværlige at håndtere gennem eksisterende pull-request-flows på Hugging Face. Det øger risikoen for fejl eller ondsindede indsprøjtninger (f.eks. dataset poisoning, Goldblum et al., 2022). Fremtidige forbedringer bør derfor omfatte bedre grænseflader og automatiserede værktøjer til at opdage og forhindre sådanne angreb samt sikre en gennemsigtig gennemgang af dataændringer.
Selv med omhyggelig udvælgelse kan offentligt tilgængelige og tilsyneladende åbne datasæt indeholde ophavsretligt beskyttet indhold. Et tidligere eksempel er OpenSubtitles, som oprindeligt indgik i Danish Gigaword (Derczynski et al., 2021), men senere blev genstand for juridiske tvivlsspørgsmål. Ved at versionere og tydeligt angive, hvilke kilder der er udeladt, stræber forskerne efter at skabe fuld åbenhed om datasættets indhold og licensstatus.
Metoden bag Dynaword kan sagtens overføres til andre sprog, men for nuværende fokuseres der på dansk. Forskerne håber, at Danish Dynaword kan tjene som inspiration og skabelon for lignende initiativer på andre sprog og opfordrer derfor til at deltage aktivt i fællesskabet for at udbrede og forbedre guidelines.
Find Danish Dynaword på HuggingFace eller læs forskernes artikel.