Ressourcer - sprogteknologi.dk

DGT-Translation Memory

DGT-TM er en oversættelseshukommelse (sætninger og deres manuelt fremstillede oversættelse) på 24 sprog. Den indeholder segmenter fra den gældende fællesskabsret – EU-...

TMX

Dictionary for the CST Lemmatizer

Binary wordlists for the CST lemmatizer as suplement to the rules of the lemmatizer. Works with both tagged and untagged input. Use: cstlemma -d NAME-OF-WORDLIST

HTML

CopCo: The Copenhagen Corpus of Eye-Tracking Recordings from Natural Reading

CopCo er et eye-tracking korpus, som er skræddersyet til både psykolingvistik og natural language processing. Målet er at undersøge læseadfærd af danske tekster hos forskellige...

CSV

Dansk-Ukrainsk-Engelsk Ordbog

Ordbogen ordbog-slovnyk.edition-4 er lavet for at hjælpe ukrainere og danskere i deres kommunikation med hinanden, og den indeholder mere end 3000 hyppige ord samt deres udtale....

PDF

NST Danish Dictation (22 kHz)

Samling af lydoptagelser i 22 kHz 1 kanal (mono). Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket....

TXT
PCM
PDF

NST Danish ASR Database (16 kHz)

Samling af lydoptagelser i 16 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til...

PCM
PDF

NST Danish Speech Synthesis (44kHz)

Samling af lydoptagelser i 44 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til...

PCM
TXT

ScandiQA

ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål...

JSON

Danish WIT

Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med...

parquet

Autoriserede stednavne i Danmark

28.000 stednavne i Danmark der har en stavemåde som er autoriseret af Kulturministeriet som gældende retskrivning. Navnene kan fremsøges via applikationen stednavne.info hvis...

XLSX

WikiMatrix

135 mio parallelsætninger (1620 sprogpar - 85 sprog) fra Wikipedia. License: The mined data is distributed under the Creative Commons Attribution-ShareAlike license. Please cite...

TSV

DA-EN Danish Ministry of Higher Education and Science

Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size: 120,000 words, topic: innovation, science This dataset has been created within the...

PDF

DA-EN Danish Ministry of Higher Education and Science 3 (Processed)

Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size 110,000 words, topic: research policy (Processed) This dataset has been created...

TMX

DK INSPIRE Addresses

It is generally assumed that addresses form up to 80% of the digital solutions used by a modern society. Access to accurate and up-to-date information on Denmark's addresses is...

WMS
XML

DK INSPIRE Named place

Danish Named Place data contain names on everything from the tree “Konge egen” and the city center to the peninsula Jutland. There are 140,000 Danish Named Places in total, all...

GML
WMS
XML

SemDaX

The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN...

XML

NST N-gram - Danish News Text

Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken....

TXT

DanPASS-korpus (Danish Phonetically Annotated Spontaneous Speech)

The DanPASS corpus was developed for research and applied research purposes. It consists of of non-scripted monologues and dialogues, recorded by 27 speakers, comprising a total...

BIN
TXT

CDT - The Copenhagen Danish-English Dependency Treebank

The Copenhagen Dependency Treebanks are a set of treebanks for Danish, English, Spanish and Italian. The purpose of the Copenhagen Dependency Treebank project is to create...

TAG
ATAG

Bornholmersnak

Udtale af ord med bornholmsk dialekt. BCP-47: da-DK-bornholm.

HTML

185 ressourcer fundet