Skip to main content

Statslige Digitale Publikationer - træningsdata

Datasættet består af 14465 statslige digitale publikationer indsamlet af Det Administrative Bibliotek, der indtil 1. januar 2025 var Det Kgl. Biblioteks service for ansatte i centraladministrationen.

Datasættet er skabt af Det Kgl. Bibliotek, men defineret af Digitaliseringsstyrelsen med henblik på træning af danske sprogmodeller.

En del af teksterne er digital-fødte tekster, mens en anden del af teksterne er digitaliseret med OCR-skanning. Ved tidspunktet for udgivelsen af datasættet har det været umuligt at skaffe oplysninger om, hvilke dele der er digitaliseret med OCR, men det antages at materiale udgivet før 2000 er digitaliseret. Det har ikke været muligt at skaffe maskinproducerede OCR-konfidenstal til at beskrive OCR-kvaliteten, men kvaliteten af den digitaliserede tekst vurderes ved øjesyn at være god. OCR-kvaliteten er ikke forsøgt efterbehandlet med henblik på fejlrensning.

Hovedparten af teksterne er skrevet på dansk. En meget lille del er på forskellige andre sprog. Nogle ganske få tekster er skrevet på flere sprog. Det er f.eks. en vejledning på både dansk og grønlandsk.

Datasættet findes både i et csv format og i parquet format. Filerne er zippet med 7-Zip, som skal downloades og benyttes til at pakke filerne ud.

Data og ressourcer

Nøgleord

Yderligere info

URI https://loar.kb.dk/handle/1902/49125
Destinationsside https://loar.kb.dk/items/44df6f78-a0fd-4b81-b964-df0945be32e0
Høstes af Datavejviser Ja
Udgivelsesdato 12-01-2026
Seneste ændringsdato 12-01-2026
Opdateringsfrekvens aldrig
Dækningsperiode  / 
Emne(r) Regeringen og den offentlige sektor
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn

Oprindeligt datamateriale bestod af 16.009 XML-filer med struktureret information om publikationer og 15,965 txt filer med tekstindhold fra publikationerne. Data er blevet filtreret for dubletter, filer mindre end 2 kb og tekster uden publiceringsår. På den måde er det endelig datasæt på 14465 tekster.

Dokumentation