Datasæt - sprogteknologi.dk

Modern Danish Handwriting

Modern Danish Handwriting er et dansksproget datasæt, der indeholder mere end 200 sider med transskriberet og korrekturlæst håndskrevet tekst. Modern Danish Handwriting består i...

Parquet

DiEm HTR-Numbers

DiEm HTR Numbers er et ground truth-datasæt, der består af tal med historisk dansk håndskrift fra 1700-tallet. Datasættet er lavet som en del af projektet Digitalisering af...

Parquet

DiEm HTR

Datasættet DiEm HTR er et ground truth-datasæt for historisk dansk håndskrift fra det 17. og 18. århundrede, og det er udarbejdet som en del af projektet Digitalisering af...

Parquet

CVR-data

Data fra det Centrale Virksomhedsregister (CVR), som er statens register for virksomhedsoplysninger. CVR indeholder grunddata om virksomheder og deres produktionsenheder, dvs....

JSON

The Danish Parliament Corpus 2009-2017, v2, w. subject annotation

The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 2009 til 2017 (6/10 2009 - 7/9 2017) og er...

Plain text

Evalueringsdatasæt for 1000 danske talemåder og faste udtryk

Det Danske Sprog- og Litteraturselskab har udviklet et datasæt til evaluering af sprogmodeller på dansk. Datasættet indeholder samlet 1000 danske talemåder og faste udtryk med...

Plain text
CSV

Medical Spelling dictionary (processed)

Medical spelling dictionary with terms in Danish, English and Latin This dataset has been created within the framework of the European Language Resource Coordination (ELRC)...

XML

Klimarådets virkemiddelkatalog

Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med...

HTML

Fornavne og efternavne i befolkningen i Danmark

Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre...

HTML

HyggeSwag

“HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...

Parquet

#twitterhjerne

"#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.

Parquet

Scandi Reddit Filtered

ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter...

Parquet

Navne i hele befolkningen (top-20)

Igennem flere år har efternavnet Jensen ligget på 1. pladsen på top-20-listen over anvendte efternavne i hele befolkningen. For kvinder er det mest anvendte fornavn Anne, og for...

HTML

Danish Similarity Data Set

The Danish similarity dataset is a gold standard resource for evaluation of Danish word embedding models. The dataset consists of 99 word pairs rated by 38 human judges...

CSV

The DK-CLARIN JRC-Acquis Parallel Corpus (da, en)

The DK-CLARIN JRC-Acquis Parallel Corpus (da, en) is a part of the JRC-Acquis mulilingual parallel corpus, containing documents from The Acquis Communautaire (AC) which is the...

XML

RøBÆRTa

RøBÆRTa er en dansk præ-trænet Roberta sprogmodel. RøBÆRTa er blevet trænet på det danske mC4 datasæt i forbindelse med flax community week. Modellen er trænet til at gætte et...

Binary Data

The Leipzig Collection - Dansk sentiment

Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En...

CSV
HTML

Lex.dk - open

Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler...

HTML

ScandiQA

ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål...

JSON

KlimaBERT

KlimaBERT er et værktøj, som kan identificere og analysere politiske citater, der er relaterede til klima. Modellen fungerer bedst ved brug af officielle tekster fra...

Binary Data

31 sprogressourcer fundet