Datasæt
-
Danish Legal monolingual corpus from the contents of the retsinformation.dk web site
Danish Legal monolingual corpus from the contents of the retsinformation.dk web site This dataset has been created within the framework of the European Language Resource... -
The Danish Parliament Corpus 2009-2017, v2, w. subject annotation
The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 2009 til 2017 (6/10 2009 - 7/9 2017) og er... -
Public ADL text sources
Tekster fra Arkiv for Dansk Litteratur (ADL). Ældre dansk litteratur. Licens: https://github.com/Det-Kongelige-Bibliotek/access-digital-objects/blob/master/LICENSE -
Nordjylland News Image Captioning
Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-image-captioning med artikler fra TV2 Nord. Datasættet består af artiklernes billeder,... -
Nordjylland News Summarization
Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-summarization med artikler fra TV2 Nord ved hjælp af mediehusets API. Datasættet har CC0 licens.... -
Rec&nition
Dette repository indeholder kode og modelvægtene til Rec&nition algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden. Algoritmen er designet... -
NERDA
NERDA' er et værktøj (udgivet som Python-pakke) til at fine-tune NLP transformer-modeller til at identificere personer, organisationer, lokationer m.m. i tekster (=Named-Entity... -
PAROLE-DK og eParole
PAROLE-DK er et manuelt opmærket korpus som danner en de fakto-standard for POS-opmærkning af mange danske og udenlandske resurser. ePAROLE (udgivet i 2015) er en revideret... -
Udtaleordbog.dk
Udtaleordbog.dk er en online ordbog med danske ord og deres bøjningsformer transskriberet i IPA-lydskrift. Ordbogen gengiver både moderne udtale, konservativ udtale, mindre... -
DA-EN Danish Ministry of Higher Education and Science 3 (Processed)
Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size 110,000 words, topic: research policy (Processed) This dataset has been created... -
DA-EN Danish Ministry of Higher Education and Science
Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size: 120,000 words, topic: innovation, science This dataset has been created within the... -
The language and genre of threats
Digitalisering og opmærkning af trusselsbreve til projektet 'Truslers sprog og genre', der bygger på en innovativ kombination af sprogvidenskab og genrestudier med det formål at... -
The DK-CLARIN JRC-Acquis Parallel Corpus (da, en)
The DK-CLARIN JRC-Acquis Parallel Corpus (da, en) is a part of the JRC-Acquis mulilingual parallel corpus, containing documents from The Acquis Communautaire (AC) which is the... -
The Norwegian Colossal Corpus
"The Norwegian Colossal Corpus (NCC) is a collection of multiple smaller Norwegian corpuses suitable for training large language models. We have done extensive cleaning on the... -
The Leipzig Collection - Dansk sentiment
Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En...