71 ressourcer fundet

Typer: Korpora

Filtrér resultater
 • The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN...
 • Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen....
 • Dansk taledata fra Alvenir, som særligt kan bruges til at evaluere ASR modeller på dansk. Datasættet består af ca. 5 timers tale indtalt af 50 talere mellem 20 - 60 år....
  • ZIP
 • "The Norwegian Colossal Corpus (NCC) is a collection of multiple smaller Norwegian corpuses suitable for training large language models. We have done extensive cleaning on the...
  • JSON
 • Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods samt de bøjningsformer der er registreret til brug for ordbogens søgefunktion. Listen er TAB-separeret...
  • ZIP
 • Crowdsourced talekorpus på en lang række sprog. Korpusset er blevet skabt ved, at frivillige har doneret sætninger, oplæsninger af sætninger, samt validering af oplæsninger til...
  • MP3
 • Folketingets åbne data omfatter: metadata om sager og dokumenter i det parlamentariske arbejde i Folketingssalen samt udvalg fra oktober 2013 og fremefter. Herunder data om...
  • JSON
  • XML
 • Lyd fra alle optagelser fra Folketingets møder i Folketingssalen samt fra høringer og samråd. Lydoptagelserne er identiske med lyden fra tv-optagelserne fra møderne. Du kan...
  • MP3
 • TV-optagelser og livetransmissioner fra alle Folketingets møder i Folketingssalen samt fra høringer og samråd. Udgivet under følgende licensbetingelser:...
  • MP4
  • HTML
 • Referater af Folketingets forhandlinger i XML-format. Udgivet under følgende licensbetingel-ser: https://www.ft.dk/da/dokumenter/aabne_data
  • XML
 • Danske Taler er en levende samling, der konstant udvides med aktuelle taler. Vi indfanger og transskriberer de afgørende og definerende øjeblikke, hvor politikere, debattører...
 • Denne database er udviklet af Nordisk språkteknologi AS som datagrundlag for talekendelse og diktering på dansk. I denne version er dataene strukturet på en ny måde, således at...
  • TAR
  • PDF
 • Dansk etsproget korpus på 3,708,693 sætninger, med indholdet på www.retsinformation.dk.
 • The Leipzig Corpora Collection provides different tools and data for download, which are protected by copyright. For more details please refer to our terms of usage....
 • A billion-word corpus of Danish text. Split into many sections, and covering many dimensions of variation (spoken/written, formal/informal, modern/old, rigsdansk/dialect, and so...
  • ZIP
 • Retsinformation.dk er indgangen til det fælles statslige retsinformationssystem, der giver adgang til alle gældende love, bekendtgørelser og cirkulærer m.v. Der er også adgang...
 • EN-DA Bilingual corpus made out of PDF documents from the European Medicines Agency, (EMEA), https://www.ema.europa.eu, (February 2020). Attribution details: This dataset has...
 • Contents of the Nordic Co-operation web site http://www.norden.org downloaded and converted into a parallel corpus This dataset has been created within the framework of the...
  • ZIP
 • Contents of https://laegemiddelstyrelsen.dk were crawled, aligned on document and sentence level and converted into a parallel corpus. Contains 22699 translation units between...
  • ZIP
 • Contents of https://www.vikingeskibsmuseet.dk were crawled, aligned on document and sentence level and converted into a parallel corpus. Contains 1939 translation units (EN-DA)....
  • ZIP