101 ressourcer fundet

Filtrér resultater
  • Binary wordlists for the CST lemmatizer as suplement to the rules of the lemmatizer. Works with both tagged and untagged input. Use: cstlemma -d NAME-OF-WORDLIST License:...
  • The Danish similarity dataset is a gold standard resource for evaluation of Danish word embedding models. The dataset consists of 99 word pairs rated by 38 human judges...
  • DK-CLARIN Reference Corpus of General Danish has been collected as part of DK-CLARIN project, WP2.1, 2008 - 2011. All texts are in XML TEIP5 format (TEIP5DKCLARIN-format), with...
  • DUDS Jens Bille’s Ballad Book belongs to a corpus of the oldest Danish ballad tradition. The corpus consists of 9 ballad books handed down from Renaissance ballad collectors...
  • The DK-CLARIN Parallel Financial Corpus comprises 4.3 M Danish and 4.8 M English tokens from translated (parallel) documents, mainly annual reports, of the period 2002-2010 from...
  • The LSP (Language for Special Purposes) corpus consists of texts from seven selected domains. The DK-CLARIN LSP corpus comprises 11 M tokens from the period 2000-2010,...
  • The STO (SprogTeknologisk Ordbase) lexicon is a comprehensive computational lexicon of Danish developed for NLP/HLT applications. The syntax layer of the lexicon, presented here...
  • 135 mio parallelsætninger (1620 sprogpar - 85 sprog) fra Wikipedia. License: The mined data is distributed under the Creative Commons Attribution-ShareAlike license. Please...
  • ePAROLE (udgivet i 2015) er en revideret version af PAROLE-DK. Den adskiller sig fra den ældre version primært ved, at der er brugt et nyudviklet, mere stringent tag-sæt: ePOS....
  • CST's modificerede udgave af BRILL-taggeren POS-tagger i C/C++
  • Retsinformation.dk er indgangen til det fælles statslige retsinformationssystem, der giver adgang til alle gældende love, bekendtgørelser og cirkulærer m.v. Der er også adgang...
  • Liste med alle opslagsord og ordklasser.
    • ZIP
  • Liste med alle opslagsord og ordklasser samt alle bøjede ordformer - 'fuldformsliste'. Må kun bruges integreret i sprogteknologiske produkter, dvs. stavekontroller, spil,...
  • Igennem flere år har efternavnet Jensen ligget på 1. pladsen på top-20-listen over anvendte efternavne i hele befolkningen. For kvinder er det mest anvendte fornavn Anne, og for...
  • PAROLE-DK er et manuelt opmærket korpus som danner en de fakto-standard for POS-opmærkning af mange danske og udenlandske resurser. OBS: Licensbetingelserne for anvendelse af...
  • Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen....
  • Komplet XML-opmærket ordbog med alle bøjede former og grammatiske oplysninger, orddeling af opslagsord, eksempler, mv. Må kun bruges integreret i sprogteknologiske produkter,...
  • Samling af 3 forskellige korpusser: korpus90, korpus2000, korpus2010 (bemærkning: De dækker hver især årene rundt om 90, 2000 og 2010 (og selve året)) POS-tagget og...
  • KOMMER SNART: Liste med hyppige fejlstavninger i dansk, knyttet til deres opslagsord i DDO. OBS: Licensbetingelserne for anvendelse af denne ressource er under revision. Ny...
  • Lyd fra alle optagelser fra Folketingets møder i Folketingssalen samt fra høringer og samråd. Lydoptagelserne er identiske med lyden fra tv-optagelserne fra møderne. Du kan...