-
COR Søgehjælp
COR.SOEGEHJAELP 1.0 er en liste med en række stavefejl og alternative stavemåder (både officielle og uofficielle), samt angivelse af korrekt form.Listen trækker på oplysninger... -
CoREST
CoREST er et værktøj til sproglige undersøgelser i meget store tekstsamlinger, såkaldte tekstkorpusser. CoREST står for Corpus Retrieval System and Tools. OBS! CoREST kan ikke... -
DSL Fuldformsliste
Fuldformsleksikon med samtlige bøjningsformer for 80.000 danske lemmaer samt oplysninger om ordklasse og bøjning. Lemmaerne er indsamlet fra forskellige ældre ordbogskilder fra... -
KorpusDK
Samling af 3 forskellige korpusser: korpus90, korpus2000, korpus2010 (bemærkning: De dækker hver især årene rundt om 90, 2000 og 2010 (og selve året)) POS-tagget og... -
Lemmaliste fra Den Danske Ordbog
En liste bestående af alle opslagsord (lemmaer) fra Den Danske Ordbog (DDO). Listen er TAB-separeret og rummer fire felter: opslagsord, evt. homogranummer, ordklasse, artiklens... -
Lemmaliste fra Ordbog over det danske sprog
Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods. Listen er TAB-separeret og rummer fire felter: opslagsform, evt. homografnummer, ordklasse og artiklens... -
PAROLE-DK og eParole
PAROLE-DK er et manuelt opmærket korpus som danner en de fakto-standard for POS-opmærkning af mange danske og udenlandske resurser. ePAROLE (udgivet i 2015) er en revideret... -
word2vec: Danish DSL and Reddit word2vec word embeddings
Semantiske modeller er trænet på DSL's tekstkorpusser ved hjælp af Python-pakken Gensims. Modellerne er trænet med 500 features, et "vindue" på 5 ord omkring søgeordet og ord,... -
Sundhedsvæsenets begrebsbase (NBS)
Begrebsbasen udarbejdes af det Nationale Begrebsarbejde for Sundhedsvæsenet (NBS). Formålet med begrebsbasen er at skabe en fælles forståelse for sundhedsfaglige begreber på... -
Navne i hele befolkningen (top-20)
Igennem flere år har efternavnet Jensen ligget på 1. pladsen på top-20-listen over anvendte efternavne i hele befolkningen. For kvinder er det mest anvendte fornavn Anne, og for... -
Autoriserede stednavne i Danmark
28.000 stednavne i Danmark der har en stavemåde som er autoriseret af Kulturministeriet som gældende retskrivning. Navnene kan fremsøges via applikationen stednavne.info hvis... -
Udtaleordbog.dk
Udtaleordbog.dk er en online ordbog med danske ord og deres bøjningsformer transskriberet i IPA-lydskrift. Ordbogen gengiver både moderne udtale, konservativ udtale, mindre... -
Scandinavian Embedding Benchmark (SEB)
Scandinavian Embedding Benchmark (SEB), er en benchmarking platform til de Skandinaviske sprog (Dansk, Nynorsk, Bokmål, og Svensk). Benchmarket forsøger at evaluerer kvaliteten... -
ScandEval
ScandEval er en benchmarking platform for sprogmodeller på dansk, norsk (både bokmål og nynorsk), svensk, islandsk og færøsk. Den indeholder først og fremmest en benchmarking... -
Senda
Et værktøj til at fine-tune til NLP Transformers til sentiment analyse. Udkommer sammen med et sæt modeller fine-tunet til sentiment-analyse på dansk (udgivet på Hugging Face).... -
Finansministeriets udgivelser
Finansministeriet spiller en helt central rolle for skiftende regeringers økonomiske politik. Ministeriet er blandt andet ansvarlig for udarbejdelsen af de årlige finanslove,... -
Terminologi på skatteområdet
Terminologien er resultatet af begrebsafklaring på skatteområdet (knap 100 skattebegreber på dansk og engelsk), som blev foretaget i 2012, og som udgjorde det eksperimentelle... -
CST Lemmatiser
CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet. -
DK-CLARIN LSP Corpus
The LSP (Language for Special Purposes) corpus consists of texts from seven selected domains. The DK-CLARIN LSP corpus comprises 11 M tokens from the period 2000-2010,... -
Leipzig Corpora Collection
The Leipzig Corpora Collection provides different tools and data for download, which are protected by copyright. For more details please refer to our terms of usage....
Du kan også tilgå dette register med API (se API-dokumenter).