Danish WIT

URL: https://huggingface.co/datasets/alexandrainst/danish-wit

Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med tomme "reference beskrivelser" og billeder, hvor en persons ansigts dækker mere end 10% af billedet, fjernes. Derudover slettes upassende billeder. Danish WIT datasættet indeholder omkring 160.000 billeder, som er associeret med danske beskrivelser.