KlimaBERT er et værktøj, som kan identificere og analysere politiske citater, der er relaterede til klima. Modellen fungerer bedst ved brug af officielle tekster fra Folketinget. Hvis det politiske udsagn forudsiges at være relateret til klima, så vil det blive placeret i den positive klasse 1. Hvis det politiske udsagn, derimod, defineres som ikke-relateret til klima vil det placeres i den negative klasse 0. KlimaBERT er finetuned ved hjælp af den eksisterende model DaBERT, som gennem et datasæt bestående af citater og lovforslag fra Folketinget, er blevet trænet gennem 1000 manuelt mærkede data-points. Modellen får en F-score på 0.97, en Precision-score på 0.97 og en Recall-score på 0.97.
Algoritmen er udviklet vha. et annoteret datasæt med ~1.000 tekststykker. Datasættet indeholder 550 eksempler på klima-relaterede tekststykker og 445 ikke klima-relaterede tekststykker. Tekstykkerne er officielle transkriberede udtalelser fra det danske Folketing samt officielle beskrivelser af afholdte afstemninger i Folketingssalen i perioden fra 2012 til 2022. Datasættet blev gentagende gange opdelt i trænings- og evalueringssæt med afsæt i metoden "Stratified five-fold cross-validation", så flest mulige datapunkter kunne indkluderes ved træningen af den endelige model. Dermed repræsenterer de endelige performance-metrics et gennemsnit af den fem-foldige kryds-validerede træning af modellen.
KlimaBERT er udviklet som led i et specialeprojekt.