word2vec: Danish DSL and Reddit word2vec word embeddings

Semantiske modeller er trænet på DSL's tekstkorpusser ved hjælp af Python-pakken Gensims. Modellerne er trænet med 500 features, et "vindue" på 5 ord omkring søgeordet og ord, der optræder mindre end 5 gange i korpus, er sorteret fra, og der er anvendt "skip-gram" som træningsalgoritme. Modellen "DSL_skipgram_2020.model" er trænet med et korpus på godt en milliard løbende ord med tekster fra 1983 til og med 2019.Modellerne stilles til rådighed i tre formater. ÅBEN-DSL-LICENS:Ressourcen kan frit downloades idet man accepterer en række brugsbetingelser og forpligter sig til at overholde dem

Data og Distribution(er)

Yderligere info

Felt Værdi
Destinationsside https://korpus.dsl.dk/resources/details/word2vec.html
Forfatter Nicolai H. Sørensen
Metadata sidst opdateret Marts 30, 2021, 10:58 (UTC)
Metadata oprettet Juni 16, 2020, 07:38 (UTC)
Dækningsperiode slut 2019
Dækningsperiode start 1983
Emne Uddannelse, kultur og sport Sprog og retskrivning
GUID https://data.gov.dk/dataset/lang/b21f8377-82c6-47a8-8d70-93fd4862f613
Kontaktemail korpus@dsl.dk
Kontaktnavn DSL
URI https://data.gov.dk/dataset/lang/b21f8377-82c6-47a8-8d70-93fd4862f613
Udgivelsesdato 2019
Udgivernavn DSL
Type Værktøjer og teknologi
isReferencedBy "Word2Dict – Lemma Selection and Dictionary Editing Assisted by Word Embeddings" / Nicolai H. Sørensen, Nimb, Sanni, i Proceedings from Euralex 2018, Ljubliana, Slovenia, 2018