Skip to main content

Datasæt

  • Komplet udtræk af Retskrivningsordbogen

    Komplet XML-opmærket ordbog med alle bøjede former og grammatiske oplysninger, orddeling af opslagsord, eksempler, mv. Må kun bruges integreret i sprogteknologiske produkter,...
  • COR.SEM

    COR.SEM tilføjer semantisk information til en stor del af ordene i Det centrale ordregister COR-K og COR.EXT. I COR.SEM er oplysninger fra en række andre sprogressourcer samlet...
  • Danske Taler

    Danske Taler er en levende samling, der konstant udvides med aktuelle taler. Vi indfanger og transskriberer de afgørende og definerende øjeblikke, hvor politikere, debattører og...
  • TaggerXML

    CST's modificerede udgave af BRILL-taggeren POS-tagger i C/C++.
  • NOMCO corpus

    En opmærket multimodal samling af samtaler på dansk hvor tolv deltagerpar taler sammen for at lære hinanden at kende. Deltagerne blev filmet mens de stod foran hinanden og talte...
  • Medical Spelling dictionary (processed)

    Medical spelling dictionary with terms in Danish, English and Latin This dataset has been created within the framework of the European Language Resource Coordination (ELRC)...
  • Klimarådets virkemiddelkatalog

    Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med...
  • Lyd fra Folketinget

    Lyd fra alle optagelser fra Folketingets møder i Folketingssalen samt fra høringer og samråd. Lydoptagelserne er identiske med lyden fra tv-optagelserne fra møderne. Du kan...
  • DanskGPT-Tiny

    DanskGPT-tiny er en 1,1 milliard parametre LLaMA baseret LLM. Træningen er en fortsættelse af TinyLLaMA. Modellen er trænet på 8 milliarder tokens af dansk syntetisk tekst....
  • NB-BERT

    "NB-BERT-base is a general BERT-base model built on the large digital collection at the National Library of Norway. This model is based on the same structure as BERT Cased...
  • Named Entity Recognition dataset til Danske juridiske tekster

    Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8...
  • KorpusDK

    Samling af 3 forskellige korpusser: korpus90, korpus2000, korpus2010 (bemærkning: De dækker hver især årene rundt om 90, 2000 og 2010 (og selve året)) POS-tagget og...
  • Lemmaliste fra Den Danske Ordbog

    En liste bestående af alle opslagsord (lemmaer) fra Den Danske Ordbog (DDO). Listen er TAB-separeret og rummer fire felter: opslagsord, evt. homogranummer, ordklasse, artiklens...
  • Lemmaliste fra Ordbog over det danske sprog

    Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods. Listen er TAB-separeret og rummer fire felter: opslagsform, evt. homografnummer, ordklasse og artiklens...
  • Terminologi på skatteområdet

    Terminologien er resultatet af begrebsafklaring på skatteområdet (knap 100 skattebegreber på dansk og engelsk), som blev foretaget i 2012, og som udgjorde det eksperimentelle...
  • JEX - EuroVoc Indexer

    JEX is multi-label classification software that automatically assigns a ranked list of the over six thousand descriptors (classes) from the controlled vocabulary of the EuroVoc...
  • Danske Stednavne

    Danske Stednavne er det officielle register for stednavne i Danmark og indeholder stednavne på alt lige fra træet Kongeegen og byen Centrum til øen Fyn. Der er cirka 140.000...
  • PIN Analytical

    PIN Analytical er en klassifikationsmodel, som registrerer subjektivitet eller objektivitet i en given dansk tekst. Modellen er trænet og testet på Alexandra Instituttets...
  • NST dansk ATG-database (16 kHz) – reorganisert

    his database was created by Nordic Language Technology for the development of automatic speech recognition and dictation in Danish. In this updated version, the organization of...
  • NST Danish Dictation (22 kHz)

    Samling af lydoptagelser i 22 kHz 1 kanal (mono). Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket....
  • NST Danish ATG Database (16 kHz)

    This database was originally developed by Nordic Language Technology in the 1990ies in order to facilitate automatic speech recognition in Danish . A reorganized and more user...
  • NST udtaleleksikon for dansk

    This pronunciation lexicon for Danish was originally produced by Nordic Language Technology (NST), and contains approximately 238,000 entries. The word list consists of a...
  • NST N-gram – dansk nyhendetekst

    Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken....
  • Ordia

    Ordia er en frontend/webapplikation, som udstiller Wikidatas leksikografiske data på en let, overskuelig og tilgængelig måde. Du kan bruge Ordia til at finde oplysninger om en...
  • Lex.dk - open

    Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler...
  • Kommunal semantisk grundmodel 1

    Kommunal Semantisk Grundmodel nr. 1 er en videretræning af det Norske nationalbiblioteks AI laboratories (NbAiLab) BERT-Base sprogmodel, og er trænet på 2,672,566 unikke...
  • KlimaBERT

    KlimaBERT er et værktøj, som kan identificere og analysere politiske citater, der er relaterede til klima. Modellen fungerer bedst ved brug af officielle tekster fra...
  • Klimarådets Udgivelser

    Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med...
  • Jysk Ordbog

    Jysk Ordbog (a-h) dækker over jyske dialekter i perioden 1700-1920. Størstedelen af ordbogens kilder afspejler jysk dialekt og landbokultur i perioden 1850-1920. Ordbogen...
  • Johannes V Jensen Korpus

    Elektroniske versioner af størstedelen af Johannes V. Jensens udgivelser. I regi af CLARIN-projektet og i samarbejde med rettighedshaverne, gjorde Jensen Forum i 2011...
  • Kommunal semantisk grundmodel 2

    Kommunal Semantisk Grundmodel nr. 2 er en semantisk søgemodel der en finjusteret version af den Kommunale grundmodel nr.1 til at klassificere et givet KL-område baseret på en...
  • Common Voice (Dansk)

    Crowdsourced talekorpus på en lang række sprog. Korpusset er blevet skabt ved, at frivillige har doneret sætninger, oplæsninger af sætninger, samt validering af oplæsninger til...