Skip to main content

KlimaBERT

KlimaBERT er et værktøj, som kan identificere og analysere politiske citater, der er relaterede til klima. Modellen fungerer bedst ved brug af officielle tekster fra Folketinget. Hvis det politiske udsagn forudsiges at være relateret til klima, så vil det blive placeret i den positive klasse 1. Hvis det politiske udsagn, derimod, defineres som ikke-relateret til klima vil det placeres i den negative klasse 0. KlimaBERT er finetuned ved hjælp af den eksisterende model DaBERT, som gennem et datasæt bestående af citater og lovforslag fra Folketinget, er blevet trænet gennem 1000 manuelt mærkede data-points. Modellen får en F-score på 0.97, en Precision-score på 0.97 og en Recall-score på 0.97.

Algoritmen er udviklet vha. et annoteret datasæt med ~1.000 tekststykker. Datasættet indeholder 550 eksempler på klima-relaterede tekststykker og 445 ikke klima-relaterede tekststykker. Tekstykkerne er officielle transkriberede udtalelser fra det danske Folketing samt officielle beskrivelser af afholdte afstemninger i Folketingssalen i perioden fra 2012 til 2022. Datasættet blev gentagende gange opdelt i trænings- og evalueringssæt med afsæt i metoden "Stratified five-fold cross-validation", så flest mulige datapunkter kunne indkluderes ved træningen af den endelige model. Dermed repræsenterer de endelige performance-metrics et gennemsnit af den fem-foldige kryds-validerede træning af modellen.

KlimaBERT er udviklet som led i et specialeprojekt.

Data og ressourcer

Nøgleord

Yderligere info

URI https://data.gov.dk/dataset/lang/51dde019-f0ef-40fb-9264-85b4a8a34379
Destinationsside https://huggingface.co/jonahank/KlimaBERT
Høstes af Datavejviser
Udgivelsesdato 01-06-2022
Seneste ændringsdato 07-08-2023
Opdateringsfrekvens aldrig
Dækningsperiode 01-01-2012  /  30-12-2022
Emne(r)
  • 38.50.10 Klima
  • Regeringen og den offentlige sektor
Adgangsrettigheder offentlig
Overholder
Proveniensudsagn
Dokumentation