162 ressourcer fundet

Filtrér resultater
  • Samling af lydoptagelser i 44 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til...
    • PCM
    • TXT
  • ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål...
    • JSON
  • Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med...
    • parquet
  • 28.000 stednavne i Danmark der har en stavemåde som er autoriseret af Kulturministeriet som gældende retskrivning. Navnene kan fremsøges via applikationen stednavne.info hvis...
    • XLSX
  • 135 mio parallelsætninger (1620 sprogpar - 85 sprog) fra Wikipedia. License: The mined data is distributed under the Creative Commons Attribution-ShareAlike license. Please...
    • TSV
  • Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size: 120,000 words, topic: innovation, science This dataset has been created within the...
    • PDF
  • Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size 110,000 words, topic: research policy (Processed) This dataset has been created...
    • TMX
  • It is generally assumed that addresses form up to 80% of the digital solutions used by a modern society. Access to accurate and up-to-date information on Denmark's addresses is...
    • WMS
    • XML
  • Danish Named Place data contain names on everything from the tree “Konge egen” and the city center to the peninsula Jutland. There are 140,000 Danish Named Places in total, all...
    • GML
    • WMS
    • XML
  • Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8...
    • conll
  • The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN...
    • XML
  • DK-CLARIN Reference Corpus of General Danish has been collected as part of DK-CLARIN project, WP2.1, 2008 - 2011. All texts are in XML TEIP5 format (TEIP5DKCLARIN-format), with...
    • XML
  • Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken....
    • TXT
  • The DanPASS corpus was developed for research and applied research purposes. It consists of of non-scripted monologues and dialogues, recorded by 27 speakers, comprising a total...
    • BIN
    • TXT
  • The Copenhagen Dependency Treebanks are a set of treebanks for Danish, English, Spanish and Italian. The purpose of the Copenhagen Dependency Treebank project is to create...
    • TAG
    • ATAG
  • Udtale af ord med bornholmsk dialekt. BCP-47: da-DK-bornholm.
    • HTML
  • PAROLE-DK er et manuelt opmærket korpus som danner en de fakto-standard for POS-opmærkning af mange danske og udenlandske resurser. ePAROLE (udgivet i 2015) er en revideret...
    • XML
    • TXT
  • Liste med alle opslagsord og ordklasser.
    • TXT
    • HTML
  • Liste med alle opslagsord og ordklasser samt alle bøjede ordformer - 'fuldformsliste'. Må kun bruges integreret i sprogteknologiske produkter, dvs. stavekontroller, spil,...
    • TXT
  • Komplet XML-opmærket ordbog med alle bøjede former og grammatiske oplysninger, orddeling af opslagsord, eksempler, mv. Må kun bruges integreret i sprogteknologiske produkter,...
    • XML