Datasæt

scandi-fine-web-cleaner

Denne model er en demoklassifikator til at identificere problematisk indhold (forkert sprog, forvrænget tekst) i danske og svenske webtekster. Modellen blev udviklet som en del af et blogindlæg, der udforsker, hvordan man kan filtrere webdata ved hjælp af fællesskabsbaserede annoteringer. Modellen er finjusteret baseret på FacebookAI/xlm-roberta-base og trænet på datasættet data-is-better-together/fineweb-c.

Den opnår følgende resultater på evalueringssættet:

Precision: 0.9524 (95.2%)

Recall: 0.7018 (70.2%)

F1: 0.8081

AUC-ROC: 0.9648

Formål og begrænsninger: Modellen er beregnet til at fungere som et indledende filter for webtekster med henblik på at forbedre effektiviteten af annoteringsprocessen. Den er kun blevet testet på dansk og svensk indhold. Den høje præcision (95,2 %) betyder, at falske positiver er sjældne, mens recall (70,2 %) indikerer, at modellen fanger størstedelen af det problematiske indhold.

Data og ressourcer

scandi fine web cleanerhttp://publications.europa.eu/resource/authority/file-type/HTML
Tilgå ressourcen her.
Udforsk
- Gå til ressource

Nøgleord

Yderligere info

URI	https://data.gov.dk/dataset/lang/d7483dd1-b48f-443e-9aa9-81dae1977791
Destinationsside	https://huggingface.co/davanstrien/scandi-fine-web-cleaner
Høstes af Datavejviser	Nej
Udgivelsesdato	14-01-2025
Seneste ændringsdato	14-01-2025
Opdateringsfrekvens	ubekendt
Dækningsperiode	/
Emne(r)	Regeringen og den offentlige sektor
Adgangsrettigheder	offentlig
Overholder	https://huggingface.co/davanstrien/scandi-fine-web-cleaner/blob/main/README.md
Proveniensudsagn
Dokumentation	https://huggingface.co/davanstrien/scandi-fine-web-cleaner/blob/main/README.md