word2vec: Danish DSL and Reddit word2vec word embeddings

Semantiske modeller er trænet på DSL's tekstkorpusser ved hjælp af Python-pakken Gensims. Modellerne er trænet med 500 features, et "vindue" på 5 ord omkring søgeordet og ord, der optræder mindre end 5 gange i korpus, er sorteret fra, og der er anvendt "skip-gram" som træningsalgoritme. Modellen "DSL_skipgram_2020.model" er trænet med et korpus på godt en milliard løbende ord med tekster fra 1983 til og med 2019.Modellerne stilles til rådighed i tre formater. ÅBEN-DSL-LICENS:Ressourcen kan frit downloades idet man accepterer en række brugsbetingelser og forpligter sig til at overholde dem

Data og Distribution(er)

word2vec word embeddingsPython
Tilgå Python pakke her.
Mere information
Word2vec: Danish DSL and Reddit word2vec word...c/c++
Tilgå download af ressourcen i C format.
Mere information
word2vec: Danish DSL and Reddit word2vec word...BIN
Download ressourcen i BIN format.
Mere information
Modelvægte i txt formatTXT
Download modelvægte i plain txt format.
Mere information

Yderligere info test

Felt	Værdi
Destinationsside	https://korpus.dsl.dk/resources/details/word2vec.html
Forfatter	Nicolai H. Sørensen
Metadata sidst opdateret	april 10, 2024, 07:11 (UTC)
Metadata oprettet	juni 16, 2020, 07:38 (UTC)
Dækningsperiode slut	2019
Dækningsperiode start	1983
Emne	Uddannelse, kultur og sport Sprog og retskrivning
GUID	https://data.gov.dk/dataset/lang/b21f8377-82c6-47a8-8d70-93fd4862f613
Kontaktemail	korpus@dsl.dk
Kontaktnavn	DSL
URI	https://data.gov.dk/dataset/lang/b21f8377-82c6-47a8-8d70-93fd4862f613
Udgivelsesdato	2019
Udgivernavn	DSL
type	Værktøjer og teknologi
isReferencedBy	"Word2Dict – Lemma Selection and Dictionary Editing Assisted by Word Embeddings" / Nicolai H. Sørensen, Nimb, Sanni, i Proceedings from Euralex 2018, Ljubliana, Slovenia, 2018