64 ressourcer fundet

Tags: Tekst

Filtrér resultater
  • Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre...
    • ZIP
  • A billion-word corpus of Danish text. Split into many sections, and covering many dimensions of variation (spoken/written, formal/informal, modern/old, rigsdansk/dialect, and so...
    • ZIP
  • Language processing resources and tools for Bornholmsk, a language spoken on the island of Bornholm, with roots in Danish and closely related to Scanian. Includes corpora, word...
    • ZIP
  • Retsinformation.dk er indgangen til det fælles statslige retsinformationssystem, der giver adgang til alle gældende love, bekendtgørelser og cirkulærer m.v. Der er også adgang...
  • KOMMER SNART: Crowdsourced talekorpus på en lang række sprog - dog endnu ikke tilgængelig som download for dansk, men det er tanken at det stilles frit tilgængeligt
  • The Leipzig Corpora Collection provides different tools and data for download, which are protected by copyright. For more details please refer to our terms of usage....
  • Ordliste og værktøj til sentimentanalyse skrevet i Python.
    • TXT
  • Maskinlæsbar version af dumps fra den danske wikipedia kilder. Se https://foundation.wikimedia.org/wiki/Terms_of_Use
  • Maskinlæsbar version af dumps fra den danske wikipedias citater. Se https://foundation.wikimedia.org/wiki/Terms_of_Use
  • Maskinlæsbar version af dumps fra den danske wikipedia. Se https://foundation.wikimedia.org/wiki/Terms_of_Use
  • ML Powered Danish Sentiment Model
  • The Copenhagen Dependency Treebanks are a set of treebanks for Danish, English, Spanish and Italian. The purpose of the Copenhagen Dependency Treebank project is to create...
    • ZIP
    • TAR
  • Dansk oversættelse af WordSim-353-word similarity datasættet som vedligeholdes af Evgeniy Gabrilovich.
    • CSV
  • Open-source Python-pakke til dansk talegenkendelse (tale-til-tekst). DanSpeech har arbejdet på at udvikle generelle talegenkendelsesmodeller siden 2018. Projektet har levet som...
  • BERT (Bidirectional Encoder Representations from Transformers) is a deep neural network model used in Natural Language Processing. The network learns the grammar and semantics...
  • Igennem flere år har efternavnet Jensen ligget på 1. pladsen på top-20-listen over anvendte efternavne i hele befolkningen. For kvinder er det mest anvendte fornavn Anne, og for...
  • Tekster fra Arkiv for Dansk Litteratur (ADL). Ældre dansk litteratur. Licens: https://github.com/Det-Kongelige-Bibliotek/access-digital-objects/blob/master/LICENSE
  • ordbog (et Frame-leksikon) med verbers og verbalsubstantivers semantiske rammer (Frames) ud fra standarden Berkeley FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (der...
    • CSV
  • Samling af 3 forskellige korpusser: korpus90, korpus2000, korpus2010 (bemærkning: De dækker hver især årene rundt om 90, 2000 og 2010 (og selve året)) POS-tagget og...
  • Liste med hyppige fejlstavninger i dansk, knyttet til deres opslagsord i DDO. Listen indeholder de fejlstavede former af opslagsord og bøjningsformer, der registreres i...