Rec&nition

Dette repository indeholder kode og modelvægtene til Rec&nition algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden.

Algoritmen er designet til at klassificere små tekststykker efter, om de indeholder anerkendende sprog. Den er blevet brugt til at finde anerkendende sprog i den offentlige debat, ved at kigge på om en Facebook kommentar er skrevet pænt og indbyder til dialog. Du kan læse mere om arbejdet i udgivelsen her

Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen.

Data og Distribution(er)

Yderligere info test

Felt Værdi
Destinationsside https://github.com/ogtal/rec-nition
Metadata sidst opdateret januar 26, 2024, 15:21 (UTC)
Metadata oprettet december 3, 2021, 10:02 (UTC)
Emne Sprog og retskrivning Uddannelse, kultur og sport
Kontaktemail info@ogtal.dk
Kontaktnavn Ronnie Taarnborg og Edin Lind Ikanovic
Sprog dansk
URI https://data.gov.dk/dataset/lang/b1c0e376-e914-457f-a846-8df7a54c850c
Udgivelsesdato 03-12-2021
datastatement Algortimen er udviklet vha. et annoteret datasæt med 67.188 tekststykker. Datasættet indeholder 14.911 eksempler på anerkendelse og 52.913 eksempler på tekststykker uden anerkendelse. Teksstykkerne er kommentarer og svar afgivet på opslag i en række offentlige Facebook Pages og større grupper. Datasættet er opdelt i et træningsdatasæt (70 procent), et evalueringsdatasæt (20 procent) og et testdatasæt (10 procent). Trænings- og evalueringsdatasættet blev brugt til at træne og udvælge den bedste kombination af algoritmearkitektur og hyperparametre. Til det brugte vi den højest macro average F1 score. Efter udvælgelsen af den bedste algoritme blev denne testet på testdatasættet