Skip to main content

da-wikipedia-queries

Formålet med dette datasæt er at træne embedding-modeller til retrieval på dansk.

Dette datasæt blev oprettet ved at vise ca. 30.000 Wikipedia-afsnit til LLM’er og bede dem om at generere forespørgsler (queries), der ville returnere det pågældende afsnit.

For hvert af de 30.000 afsnit i det oprindelige Wikipedia-datasæt brugte vi 3 forskellige LLM’er til at generere forespørgsler: ThatsGroes/Llama-3-8b-instruct-SkoleGPT, google/gemma-2-27b-it og Cohere-For-AI/aya-expanse-32b. Dermed blev der genereret 3 forespørgsler pr. afsnit. Som bruger af dette datasæt bør du derfor selv vælge, hvilke afsnit du vil benytte. Du kan f.eks. vælge kun at bruge forespørgsler genereret af én bestemt LLM. Manuel inspektion tyder på, at google/gemma-2-27b-it genererede de mest meningsfulde resultater, så et deldatasæt med kun disse eksempler findes her: https://huggingface.co/datasets/DDSC/da-wikipedia-queries-gemma. Et yderligere forbehandlet deldatasæt af DDSC/da-wikipedia-queries findes her: https://huggingface.co/datasets/DDSC/da-wikipedia-queries-gemma-processed/settings.

Prompten, der blev brugt til at generere forespørgslerne, findes i kolonnen “prompt”. De genererede forespørgsler er i kolonnen “query”. Afsnittene er i kolonnen “positive”.

Modellerne blev kørt på en GPU-server med et Nvidia A100 GPU, venligst stillet til rådighed af Arrow Denmark og Nvidia.

Genereringen af dette datasæt forbrugte 1,16 kWh på GPU, CPU og RAM og udledte 174 g CO2 ifølge målinger fra codecarbon.

For flere detaljer om metodologien, se denne MTEB-diskussion (https://github.com/embeddings-benchmark/mteb/discussions/1353#discussioncomment-11155047) og tjek Github-repositoriet (https://github.com/meshachaderele/ddsc-llm) for dette projekt.

Licensen er en Creative Commons Attribution-ShareAlike 3.0 Unported, også kaldet CC-BY-SA 3.0.

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/b0154ebc-6c69-450f-b19e-8263d2e2ca4b
Destinationsside https://huggingface.co/datasets/DDSC/da-wikipedia-queries
Høstes af Datavejviser Nej
Udgivelsesdato 13-11-2024
Seneste ændringsdato 19-11-2024
Opdateringsfrekvens uregelmæssig
Dækningsperiode  / 
Emne(r)
  • Regeringen og den offentlige sektor
  • Uddannelse, kultur og sport
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn
Dokumentation