Datasættet består af 9 mio. ord fra referater fra byråds- og miljø-/teknikudvalgsmøder hos fem kommuner: Aarhus Kommune, Favrskov Kommune, Kalundborg Kommune, Tønder Kommune og Vejle Kommune.
I samarbejde med Open Data DK og de fem kommuner har Digitaliseringsstyrelsen gennemført et pilotprojekt om at tilgængeliggøre tekstdata fra referater fra kommunernes byråds- og miljø-/teknikudvalgsmøder. Dette er med henblik på at tilgængeliggøre domænespecifikke data, som kan bruges til udvikling af sprogmodeller eller AI-løsninger fx målrettet den kommunale sektor.
I denne dataudgivelse er det kun referaterne fra byråds- og miljø-/teknikudvalgsmøderne, som er taget med. For disse dokumenttyper har projektet taget udgangspunkt i en generel vurdering af, at der kun indgår materiale, som er fri for ophavsret, og som dermed vurderes egnet til tilgængeliggørelse med henblik på brug til udvikling af sprogmodeller. Digitaliseringsstyrelsen arbejder videre på en proces for at finde en løsning til at frasortere ophavsretligt materiale, således at bilagene fra møderne også kan blive efterbehandlet og udstillet.
I forbindelse med efterbehandlingen referaterne er dokumenter med følsomme personoplysninger blevet frasorteret og direkte personidentifikatorer er blevet pseudonymiseret. Datasættet består af 9 mio. ord.
I dokumentationen kan den juridiske fremgangsmåde findes, som beskriver hvilke juridiske vurderinger samt risikomitigerende tiltag, som er blevet gjort i forbindelse med projektet. Derudover kan den tekniske fremgangsmåde herunder dokumentation og kode findes.
Datasættet findes både i et csv-format og i et parquet-format.