185 ressourcer fundet

Filtrér resultater
  • A toolkit for Part-of-Speech tagging and NER in DyNet. It has been tested on Danish, amongst other languages (for the UD POS tags in the UD_Danish-DDT version 1.1 and 2.3)...
    • Python
  • The aligned corpus consists of press releases from the European Commission Press Relase Database (Rapid) harvested in 2009 and 2011 (http://europa.eu/rapid/search.htm). The...
    • TXT
    • TMX
  • DUDS Jens Bille’s Ballad Book belongs to a corpus of the oldest Danish ballad tradition. The corpus consists of 9 ballad books handed down from Renaissance ballad collectors...
    • XML
  • Elektroniske versioner af størstedelen af Johannes V. Jensens udgivelser. I regi af CLARIN-projektet og i samarbejde med rettighedshaverne, gjorde Jensen Forum i 2011...
    • HTML
    • PDF
  • Gruntvig's Works version 1,12. april 2018 contains N.F.S. Grundtvig's authorship. Corpus folder containing edited texts and OCR texts. Creator: Ravn, Kim Steen License:...
    • XML
  • The DK-CLARIN JRC-Acquis Parallel Corpus (da, en) is a part of the JRC-Acquis mulilingual parallel corpus, containing documents from The Acquis Communautaire (AC) which is the...
    • XML
  • The Danish similarity dataset is a gold standard resource for evaluation of Danish word embedding models. The dataset consists of 99 word pairs rated by 38 human judges...
    • CSV
  • The DK-CLARIN Parallel Financial Corpus comprises 4.3 M Danish and 4.8 M English tokens from translated (parallel) documents, mainly annual reports, of the period 2002-2010 from...
    • XML
  • The LSP (Language for Special Purposes) corpus consists of texts from seven selected domains. The DK-CLARIN LSP corpus comprises 11 M tokens from the period 2000-2010,...
    • XML
  • CST's tokeniserings- og segmenteringsprogram til tekst- og RTF-filer. Opdeler en tekst i ord og ordforbindelser
    • HTML
  • En opmærket multimodal samling af samtaler på dansk hvor tolv deltagerpar taler sammen for at lære hinanden at kende. Deltagerne blev filmet mens de stod foran hinanden og talte...
    • XML
  • CST's modificerede udgave af BRILL-taggeren POS-tagger i C/C++
    • C/C++
  • This resource is an annotation of four NER types (PER, ORG, LOC, MISC) on top of the UD_Danish-DDT data. Status: published and freely available since summer 2019 Reference:...
    • conll
  • Udtaleordbog baseret på transskriptionerne i DanPASS-korpusset. Listen indeholder 67.285 transskriptioner af 2.232 fonologiske ord. Listen viser ortografisk ord,...
    • HTML
    • WAV
  • Data indeholder den oprindelige textgridinformation i DanPASS-korpusset og ekstra opmærkning af korpusset, omorganiseret i semikolonseparerede kolonner i en txt-fil.
    • TXT
  • DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet...
    • Python
  • DaLUKE er udviklet i forbindelse med et bachelorprojekt i Kunstig Intelligens og Data ved Danmarks Tekniske Universitet. DaLUKE er en dansk version af LUKE, som er en...
    • Python
  • The Leipzig Corpora Collection provides different tools and data for download, which are protected by copyright. For more details please refer to our terms of usage....
    • TXT
  • Ælæctra er en transformer-baseret NLP sprogmodel, der er udarbejdet ved at benytte prætræningsmetoden ELECTRA-Small på The Danish Gigaword Projects datasæt (Der henvises til...
    • BIN
  • Udtaleordbog.dk er en online ordbog med danske ord og deres bøjningsformer transskriberet i IPA-lydskrift. Ordbogen gengiver både moderne udtale, konservativ udtale, mindre...
    • HTML
    • TXT