Skip to main content

DiEm HTR

Datasættet DiEm HTR er et ground truth-datasæt for historisk dansk håndskrift fra det 17. og 18. århundrede, og det er udarbejdet som en del af projektet Digitalisering af Enesteministerialbøger hos Rigsarkivet, støttet af Augustinus Fonden.

Projektet Digitalisering af Enesteministerialbøger har til formål at transskribere og gøre alle danske kirkebøger fra før reformen i 1813 offentligt tilgængelige ved hjælp af Handwritten Text Recognition-platformen (HTR) Transkribus. Til dette formål er der blevet oprettet ground truth-træningsdata til HTR-modellerne, som nu ligger offentligt tilgængelige på Hugging Face.

DiEm HTR-datasættet består af 975 transskriberede billeder og indeholder i alt 67.410 tekstlinjer og 383.339 ord.

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/91624644-df16-4aef-b480-2957762342f6
Destinationsside https://huggingface.co/datasets/RA-Data-Science/DiEm_HTR
Høstes af Datavejviser Nej
Udgivelsesdato 02-02-2026
Seneste ændringsdato 02-02-2026
Opdateringsfrekvens aldrig
Dækningsperiode 01-01-1747  /  01-01-1772
Emne(r) Befolkning og samfund
Adgangsrettigheder
Overholder
Proveniensudsagn
Dokumentation