Ha&te

Repository, som indeholder kode og modelvægtene til Ha&te algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden.

Algoritmen er designet til at klassificere små tekststykker efter om de indeholder hadfuldt sprog. Den er blevet brugt til at finde hadfuldt sprog i den offentlige debat, et arbejde som man kan læse om her. En let tilgængelig beskrivelse af hvordan algoritmen er blevet til kan findes i denne artikel.

Algortimen er designet til at bruges i kombination med A&ttack algortimen."

Data og Distribution(er)

Yderligere info test

Felt Værdi
Destinationsside https://github.com/ogtal/Ha-te
Metadata sidst opdateret april 17, 2023, 08:46 (UTC)
Metadata oprettet juli 12, 2021, 10:20 (UTC)
Emne Sprog og retskrivning Uddannelse, kultur og sport
GUID e306f8b6-6b1f-44eb-8755-666d039e9f0d
Kontaktemail info@ogtal.dk
Kontaktnavn Ronnie Taarnborg og Edin Lind Ikanovic
Provenance Datastatement: "Algortimen er trænet vha. et annoteret datasæt med 11.096 tekststykker. Datasættet indeholder 3.106 eksempler på hadfuldt sprog, 2.990 eksempler på anstødeligt sprog og 5.000 eksempler på tekststykker uden sproglige angreb. De sidste to grupper er sat sammen til en klasse. Teksstykkerne er kommentarer og svar afgivet på opslag i en række offentlige Facebook Pages og større grupper. Datasættet er opdelt i et træningsdatasæt (70 procent), et evalueringsdatasæt (20 procent) og et testdatasæt (10 procnet). Trænings- og evalueringsdatasættet blev brugt til at træne og udvælge den bedste kombination af algoritmearkitektur og hyperparametre. Til det brugte vi den højest macro average F1 score. Efter udvælgelsen af den bedste algoritme blev denne testet på testdatasættet. Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen. Se modeldefinitionen i filen model_def.py. Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen. Se modeldefinitionen i filen model_def.py"
Sprog dansk
URI https://data.gov.dk/dataset/lang/e306f8b6-6b1f-44eb-8755-666d039e9f0d
Udgivernavn Analyse og Tal
type https://data.gov.dk/concept/core/lang-resource-type/Tool
Dokumentation
usage Databehandling og -analyse