Skip to main content

DiEm HTR-Numbers

DiEm HTR Numbers er et ground truth-datasæt, der består af tal med historisk dansk håndskrift fra 1700-tallet. Datasættet er lavet som en del af projektet Digitalisering af Enesteministerialbøger hos Rigsarkivet, støttet af Augustinus Fonden.

Projektet Digitalisering af Enesteministerialbøger (DiEm) har til formål at transskribere og gøre alle danske kirkebøger fra før reformen i 1813 offentligt tilgængelige ved hjælp af håndskriftsgenkendelsesplatformen (HTR) Transkribus.

Til dette formål er der blevet lavet ground truth-træningsdata til HTR-modellerne, som Rigsarkivet har gjort offentligt tilgængelige via Hugging Face i datasættet DiEm HTR. For at gøre HTR-modellerne bedre til at genkende tal har Rigsarkivet oprettet 298 ekstra sider med ground truth, som udelukkende består af tal fra samme periode, som er tilgængelige i datasættet DiEm HTR Numbers.

DiEm HTR Numbers består af 298 transskriberede billeder, som indeholder i alt 28.850 tekstlinjer og 29.067 "ord"/tal.

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/
Destinationsside https://huggingface.co/datasets/RA-Data-Science/DiEm_HTR-Numbers
Høstes af Datavejviser Nej
Udgivelsesdato 01-12-2025
Seneste ændringsdato 01-12-2025
Opdateringsfrekvens aldrig
Dækningsperiode 01-01-1719  /  31-12-1787
Emne(r) Befolkning og samfund
Adgangsrettigheder
Overholder
Proveniensudsagn
Dokumentation