15 ressourcer fundet

Tags: Tekst Formater: TXT

Filtrér resultater
  • Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre...
    • TXT
  • Liste over de mest brugte ord i dansk. Indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene - ikke bøjningsformer (fx husene). Frekvensen er beregnet på korpus på ca....
    • TXT
  • Samling af 3 forskellige korpusser: korpus90, korpus2000, korpus2010 (bemærkning: De dækker hver især årene rundt om 90, 2000 og 2010 (og selve året)) POS-tagget og...
    • TXT
  • Semantiske modeller er trænet på DSL's tekstkorpusser ved hjælp af Python-pakken Gensims. Modellerne er trænet med 500 features, et "vindue" på 5 ord omkring søgeordet og ord,...
    • Python
    • c/c++
    • BIN
    • TXT
  • Fuldformsleksikon med samtlige bøjningsformer for 80.000 danske lemmaer samt oplysninger om ordklasse og bøjning. Lemmaerne er indsamlet fra forskellige ældre ordbogskilder fra...
    • TXT
  • Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken....
    • TXT
  • PAROLE-DK er et manuelt opmærket korpus som danner en de fakto-standard for POS-opmærkning af mange danske og udenlandske resurser. ePAROLE (udgivet i 2015) er en revideret...
    • XML
    • TXT
  • Liste med alle opslagsord og ordklasser.
    • TXT
    • HTML
  • Liste med alle opslagsord og ordklasser samt alle bøjede ordformer - 'fuldformsliste'. Må kun bruges integreret i sprogteknologiske produkter, dvs. stavekontroller, spil,...
    • TXT
  • The Digital Corpus of the European Parliament (DCEP) contains the majority of the documents published on the European Parliament's official website. It comprises a variety of...
    • XML
    • SGML
    • TXT
  • Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket.
    • TXT
  • The aligned corpus consists of press releases from the European Commission Press Relase Database (Rapid) harvested in 2009 and 2011 (http://europa.eu/rapid/search.htm). The...
    • TXT
    • TMX
  • The Leipzig Corpora Collection provides different tools and data for download, which are protected by copyright. For more details please refer to our terms of usage....
    • TXT
  • A billion-word corpus of Danish text. Split into many sections, and covering many dimensions of variation (spoken/written, formal/informal, modern/old, rigsdansk/dialect, and so...
    • TXT
  • Ordliste og værktøj til sentimentanalyse skrevet i Python.
    • TXT