-
Tekstdata fra pilotprojekt om kommunale byråds- og miljø-/teknikudvalgsmøder
Datasættet består af 9 mio. ord fra referater fra byråds- og miljø-/teknikudvalgsmøder hos fem kommuner: Aarhus Kommune, Favrskov Kommune, Kalundborg Kommune, Tønder Kommune og... -
Statslige Digitale Publikationer - træningsdata
Datasættet består af 14465 statslige digitale publikationer indsamlet af Det Administrative Bibliotek, der indtil 1. januar 2025 var Det Kgl. Biblioteks service for ansatte i... -
Danmarks Breve - træningsdata
Datasættet består af 13516 breve skrevet fra 1500-tallet til 1900-tallet af danskere med historisk og kulturel betydning. Det er skabt af Det Kgl. Bibliotek, men er defineret af... -
DanNet
DanNet is a Danish lexical semantic wordnet; i.e. a language resource where the semantic relations between words are expressed in a formal language and thereby made usable for... -
Framenet DK
Ordbog (et Frame-leksikon) med verbers og verbalsubstantivers semantiske rammer (Frames) ud fra standarden Berkeley FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (der... -
Danish Sentiment Lexicon
Det Danske Sentimentleksikon (DDS) bygger på "Den Danske Begrebsordbog" og "Den Danske Ordbog" og er udarbejdet gennem leksikografiske metoder. DDS tilskriver en negativ eller... -
COR.SEM
COR.SEM tilføjer semantisk information til en stor del af ordene i Det centrale ordregister COR-K og COR.EXT. I COR.SEM er oplysninger fra en række andre sprogressourcer samlet... -
Evalueringsdatasæt for 1000 danske talemåder og faste udtryk
Det Danske Sprog- og Litteraturselskab har udviklet et datasæt til evaluering af sprogmodeller på dansk. Datasættet indeholder samlet 1000 danske talemåder og faste udtryk med... -
Medical word embedding eval
In natural language processing, benchmarks are used to track progress and identify useful models. Currently, no benchmark for Danish clinical word embeddings exists. This paper... -
COR
Udgør indekset i Det Centrale Ordregister (COR) og består af en indekseret liste bestående af de fælles lemmaer i Retskrivningsordbogen. COR 1.0 består grundlæggende oplysninger... -
DSL Synonymliste
Genereret automatisk fra Den Danske Ordbog og indeholder synonymer i onlineudgaven juni 2018. Ord + oplysning om 1-2 synonymer (1,6 synonymer pr. ordbetydning i gmsnt.). ÅBEN-... -
Fejlformer af danske ord
Liste med hyppige fejlstavninger i dansk, knyttet til deres opslagsord i DDO. Listen indeholder de fejlstavede former af opslagsord og bøjningsformer, der registreres i... -
Fuldformliste fra Ordbog over det danske sprog
Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods samt de bøjningsformer der er registreret til brug for ordbogens søgefunktion. Listen er TAB-separeret... -
Lemmaliste fra Den Danske Ordbog
En liste bestående af alle opslagsord (lemmaer) fra Den Danske Ordbog (DDO). Listen er TAB-separeret og rummer fire felter: opslagsord, evt. homogranummer, ordklasse, artiklens... -
Lemmaliste fra Ordbog over det danske sprog
Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods. Listen er TAB-separeret og rummer fire felter: opslagsform, evt. homografnummer, ordklasse og artiklens... -
Danish Similarity Data Set
The Danish similarity dataset is a gold standard resource for evaluation of Danish word embedding models. The dataset consists of 99 word pairs rated by 38 human judges... -
The Leipzig Collection - Dansk sentiment
Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En... -
DASEM WordSim-353-da
Dansk oversættelse af WordSim-353-word similarity datasættet som vedligeholdes af Evgeniy Gabrilovich. -
DASEM Four Words
Komma opdelt fil med fire ord på hver linje, hvor det fjerde ord er en semantisk outlier. -
Danish Summarisation
Danish Summarisation er en model til automatisk opsummering af tekst (automatic abstrasctive text summarisation). Modellen er domæne specifik for danske nyhedsartikler. Modellen...
Du kan også tilgå dette register med API (se API-dokumenter).