10 ressourcer fundet

Formater: Parquet

Filtrér resultater
  • “HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...
    • Parquet
  • "#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.
    • Parquet
  • “Citizenship Tests Da.” er et spørgsmåls/svar-datasæt, der strukturerer flere års indfødsrets- og medborgerskabsprøver til brug af evaluering af sprogmodeller på dansk....
    • Parquet
  • CoRal is a comprehensive Automatic Speech Recognition (ASR) dataset designed to capture the diversity of the Danish language across various dialects, accents, genders, and age...
    • Parquet
  • Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler...
    • Parquet
  • ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter...
    • Parquet
  • Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-summarization med artikler fra TV2 Nord ved hjælp af mediehusets API. Datasættet har CC0 licens....
    • Parquet
  • Datasættet består af oplæsninger fra to professionelle danske talere, en kvinde og en mand, som har indlæst cirka 24 timers dansk tale hver. Datasættet er en del af CoRal-...
    • Parquet
  • Dette datasæt består af anonymiserede danske Twitter data, som er blev annoteret for sentimentanalysee gennem crowd-sourcing. Alt anerkendelse skal gives til forfatterne til...
    • Parquet
  • Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...
    • Parquet