-
Modellen "Danoliterate LlaMa 7B" er en stor sprogmodel tilpasset fra Meta AI's LlaMa 2 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en basismodel,...
- Safetensors
-
Modellen "Danoliterate Baseline 7B" er en stor sprogmodel trænet fra bunden på en blanding af dansk data. Modellen har 7 milliarder parametre, arkitekturen fra LlaMa 2 7B og er...
- Safetensors
-
“HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...
- Parquet
-
"#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.
- Parquet
-
Modellen "Danoliterate Mistral 7B" er en stor sprogmodel tilpasset fra Mistral AI's Mistral 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en...
- Safetensors
-
“Citizenship Tests Da.” er et spørgsmåls/svar-datasæt, der strukturerer flere års indfødsrets- og medborgerskabsprøver til brug af evaluering af sprogmodeller på dansk....
- Parquet
-
Ordliste og værktøj til sentimentanalyse skrevet i Python.
- TXT
-
List of a limited number of Danish compound words. Each line lists a word with one or more vertical bar as the separator between the individual parts of the compound word.
- TXT
-
Dansk oversættelse af WordSim-353-word similarity datasættet som vedligeholdes af Evgeniy Gabrilovich.
- CSV
-
Komma opdelt fil med fire ord på hver linje, hvor det fjerde ord er en semantisk outlier.
- CSV