Skip to main content

scandi-fine-web-cleaner

Denne model er en demoklassifikator til at identificere problematisk indhold (forkert sprog, forvrænget tekst) i danske og svenske webtekster. Modellen blev udviklet som en del af et blogindlæg, der udforsker, hvordan man kan filtrere webdata ved hjælp af fællesskabsbaserede annoteringer. Modellen er finjusteret baseret på FacebookAI/xlm-roberta-base og trænet på datasættet data-is-better-together/fineweb-c.

Den opnår følgende resultater på evalueringssættet:

Precision: 0.9524 (95.2%)

Recall: 0.7018 (70.2%)

F1: 0.8081

AUC-ROC: 0.9648

Formål og begrænsninger: Modellen er beregnet til at fungere som et indledende filter for webtekster med henblik på at forbedre effektiviteten af annoteringsprocessen. Den er kun blevet testet på dansk og svensk indhold. Den høje præcision (95,2 %) betyder, at falske positiver er sjældne, mens recall (70,2 %) indikerer, at modellen fanger størstedelen af det problematiske indhold.

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/d7483dd1-b48f-443e-9aa9-81dae1977791
Destinationsside https://huggingface.co/davanstrien/scandi-fine-web-cleaner
Høstes af Datavejviser Nej
Udgivelsesdato 14-01-2025
Seneste ændringsdato 14-01-2025
Opdateringsfrekvens ubekendt
Dækningsperiode  / 
Emne(r) Regeringen og den offentlige sektor
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn
Dokumentation