-
PAROLE-DK er et manuelt opmærket korpus som danner en de fakto-standard for POS-opmærkning af mange danske og udenlandske resurser. ePAROLE (udgivet i 2015) er en revideret...
- XML
- TXT
-
Fuldformsleksikon med samtlige bøjningsformer for 80.000 danske lemmaer samt oplysninger om ordklasse og bøjning. Lemmaerne er indsamlet fra forskellige ældre ordbogskilder fra...
- TXT
-
Semantiske modeller er trænet på DSL's tekstkorpusser ved hjælp af Python-pakken Gensims. Modellerne er trænet med 500 features, et "vindue" på 5 ord omkring søgeordet og ord,...
- Python
- c/c++
- BIN
- TXT
-
Samling af 3 forskellige korpusser: korpus90, korpus2000, korpus2010 (bemærkning: De dækker hver især årene rundt om 90, 2000 og 2010 (og selve året)) POS-tagget og...
- TXT
-
Liste over de mest brugte ord i dansk. Indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene - ikke bøjningsformer (fx husene). Frekvensen er beregnet på korpus på ca....
- TXT
-
Liste med alle opslagsord og ordklasser samt alle bøjede ordformer - 'fuldformsliste'. Må kun bruges integreret i sprogteknologiske produkter, dvs. stavekontroller, spil,...
- TXT
-
Liste med alle opslagsord og ordklasser.
- TXT
- HTML
-
Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre...
- TXT
-
Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken....
- TXT
-
The Digital Corpus of the European Parliament (DCEP) contains the majority of the documents published on the European Parliament's official website. It comprises a variety of...
- XML
- SGML
- TXT
-
Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket.
- TXT
-
The aligned corpus consists of press releases from the European Commission Press Relase Database (Rapid) harvested in 2009 and 2011 (http://europa.eu/rapid/search.htm). The...
- TXT
- TMX
-
The Leipzig Corpora Collection provides different tools and data for download, which are protected by copyright. For more details please refer to our terms of usage....
- TXT
-
Ordliste og værktøj til sentimentanalyse skrevet i Python.
- TXT