-
Modern Danish Handwriting
Modern Danish Handwriting er et dansksproget datasæt, der indeholder mere end 200 sider med transskriberet og korrekturlæst håndskrevet tekst. Modern Danish Handwriting består i... -
DiEm HTR-Numbers
DiEm HTR Numbers er et ground truth-datasæt, der består af tal med historisk dansk håndskrift fra 1700-tallet. Datasættet er lavet som en del af projektet Digitalisering af... -
DiEm HTR
Datasættet DiEm HTR er et ground truth-datasæt for historisk dansk håndskrift fra det 17. og 18. århundrede, og det er udarbejdet som en del af projektet Digitalisering af... -
CVR-data
Data fra det Centrale Virksomhedsregister (CVR), som er statens register for virksomhedsoplysninger. CVR indeholder grunddata om virksomheder og deres produktionsenheder, dvs.... -
The Danish Parliament Corpus 2009-2017, v2, w. subject annotation
The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 2009 til 2017 (6/10 2009 - 7/9 2017) og er... -
Evalueringsdatasæt for 1000 danske talemåder og faste udtryk
Det Danske Sprog- og Litteraturselskab har udviklet et datasæt til evaluering af sprogmodeller på dansk. Datasættet indeholder samlet 1000 danske talemåder og faste udtryk med... -
Medical Spelling dictionary (processed)
Medical spelling dictionary with terms in Danish, English and Latin This dataset has been created within the framework of the European Language Resource Coordination (ELRC)... -
Klimarådets virkemiddelkatalog
Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med... -
Fornavne og efternavne i befolkningen i Danmark
Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre... -
HyggeSwag
“HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen... -
#twitterhjerne
"#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet. -
Scandi Reddit Filtered
ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter... -
Navne i hele befolkningen (top-20)
Igennem flere år har efternavnet Jensen ligget på 1. pladsen på top-20-listen over anvendte efternavne i hele befolkningen. For kvinder er det mest anvendte fornavn Anne, og for... -
Danish Similarity Data Set
The Danish similarity dataset is a gold standard resource for evaluation of Danish word embedding models. The dataset consists of 99 word pairs rated by 38 human judges... -
The DK-CLARIN JRC-Acquis Parallel Corpus (da, en)
The DK-CLARIN JRC-Acquis Parallel Corpus (da, en) is a part of the JRC-Acquis mulilingual parallel corpus, containing documents from The Acquis Communautaire (AC) which is the... -
RøBÆRTa
RøBÆRTa er en dansk præ-trænet Roberta sprogmodel. RøBÆRTa er blevet trænet på det danske mC4 datasæt i forbindelse med flax community week. Modellen er trænet til at gætte et... -
The Leipzig Collection - Dansk sentiment
Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En... -
Lex.dk - open
Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler... -
ScandiQA
ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål... -
KlimaBERT
KlimaBERT er et værktøj, som kan identificere og analysere politiske citater, der er relaterede til klima. Modellen fungerer bedst ved brug af officielle tekster fra...
Du kan også tilgå dette register med API (se API-dokumenter).