-
NST Danish ATG Database (16 kHz)
This database was originally developed by Nordic Language Technology in the 1990ies in order to facilitate automatic speech recognition in Danish . A reorganized and more user... -
NST udtaleleksikon for dansk
This pronunciation lexicon for Danish was originally produced by Nordic Language Technology (NST), and contains approximately 238,000 entries. The word list consists of a... -
NST N-gram – dansk nyhendetekst
Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken.... -
Ordia
Ordia er en frontend/webapplikation, som udstiller Wikidatas leksikografiske data på en let, overskuelig og tilgængelig måde. Du kan bruge Ordia til at finde oplysninger om en... -
Lex.dk - open
Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler... -
Kommunal semantisk grundmodel 1
Kommunal Semantisk Grundmodel nr. 1 er en videretræning af det Norske nationalbiblioteks AI laboratories (NbAiLab) BERT-Base sprogmodel, og er trænet på 2,672,566 unikke... -
Stortinget Speech Corpus version 1.0
The Stortinget Speech Corpus (SSC) is a 5000+ hours speech dataset for weak supervision ASR created from audio and aligned proceedings text from Stortinget, the Norwegian... -
XLS-R-300m-danish-nst-cv9
'Finetuned version af XLS-R-300m-danish til talegenkendelse på dansk. Modellen er finetuned på træningssættet af NST ASR og Common Voice 9, og har en word error rate på 5-10% på... -
XLS-R-300m-danish
XLS-R-300m-danish er en general dansk talemodel der bygger på wav2vec2.0 arkitekturen og er en fortsat prætræning af XLS-R checkpointet. Modellen er trænet på 141.000 timers... -
SemDaX
The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN... -
ScandiQA
ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål... -
ScandiNER
ScandiNER er en NER (named entity recognition) model, som er bygget på den norske model fra det norske nationalbiblioteks AI labbet. Modellen er fin tunet på et kombineret... -
KlimaBERT
KlimaBERT er et værktøj, som kan identificere og analysere politiske citater, der er relaterede til klima. Modellen fungerer bedst ved brug af officielle tekster fra... -
Klimarådets Udgivelser
Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med... -
Bilingual corpus made out of PDF documents from the European Medicines...
EN-DA Bilingual corpus made out of PDF documents from the European Medicines Agency, (EMEA), https://www.ema.europa.eu, (February 2020). Attribution details: This dataset has... -
Bilingual English-Danish parallel corpus from the official Nordic cooperation website
Contents of the Nordic Co-operation web site http://www.norden.org downloaded and converted into a parallel corpus This dataset has been created within the framework of the... -
Bilingual English-Danish parallel corpus from VisitDenmark - The official...
Contents of https://www.visitdenmark.dk were crawled, aligned on document and sentence level and converted into a parallel corpus. This dataset has been created within the... -
Bilingual English-Danish parallel corpus from Visit Vejle website
Contents of https://www.visitvejle.com were crawled, aligned on document and sentence level and converted into a parallel corpus. This dataset has been created within the... -
Bilingual English-Danish parallel corpus from The Viking Ship Museum website
Contents of https://www.vikingeskibsmuseet.dk were crawled, aligned on document and sentence level and converted into a parallel corpus. Contains 12403 translation units (EN-... -
Bilingual English-Danish parallel corpus from The Geological Survey of...
Contents of http://www.geus.dk/ were crawled, aligned on document and sentence level and converted into a parallel corpus. This dataset has been created within the framework of...
Du kan også tilgå dette register med API (se API-dokumenter).