Opsamling på workshop om store danske sprogressourcer

14. december 2023

Dekorativt indhold

Digitaliseringsstyrelsen har afholdt workshop om store danske sprogressourcer

Tirsdag d. 12. september 2023 afholdt Digitaliseringsstyrelsen en workshop med omkring 50 deltagende fra 30 forskellige organisationer. Formålet var at diskutere relevansen af en række eksisterende, men utilgængelige, danske sprogdata fra Det Kongelige Bibliotek, Rigsarkivet, Lex.dk og Aarhus Stadsarkiv.

De fire oplægsholdere præsenterede hver især de data, de sidder inde med samt det tekniske format, som disse data som udgangspunkt eksisterer i. Formålet med workshoppen var sammen med deltagerne at diskutere disse datas værdi for sprogteknologisk udvikling samt afklare i hvilket omfang, der ville være behov for en konkret efterbehandling af dataene. Deltagerne blev inddelt i grupper, hvor hver gruppe skulle forholde sig til ét af de fire oplæg og diskutere ud fra to hovedspørgsmål:

  1. Hvad er de pågældende datas værdi for sprogteknologiske formål?
  2. Hvad skal der teknisk til for, at disse ”rå” data kan blive til anvendelige sprogressourcer?

Workshoppen blev afholdt som et led i et større arbejde, hvor Digitaliseringsstyrelsen søger at afdække, hvilke data det giver mening at prioritere i en indsats for at tilvejebringe flere danske højkvalitetssprogdata.

 

Dagens konklusioner

Værdien af data er kontekstafhængig. Derfor skal der sættes fokus på et bredt datagrundlag, hvor indsatsen i første omfang skal prioritere at sætte data fri, da efterbehandling til sammenligning er mindre vigtig, så længe der er en klar struktur i datasættet.

Der blev sat fokus på betydningen af at dele data, ikke mindst mht. europæisk og nordisk samarbejde. F.eks. vil det gavne, at den svenske model, GPT-SW3, også får bedre adgang til danske og norske data, så denne på sigt vil kunne bruges i danske sammenhænge.

Kontekst handler også om tid, og det blev f.eks. påpeget, at virksomheder ofte har en kortere tidshorisont end f.eks. forskere, hvorfor de gode data bliver værdiløse for dem, når arbejdet med at få fat i dem overstiger den tidshorisont, de arbejder ud fra.

Det står generelt klart efter workshoppen, at data fra alle fire organisationer har væsentlig værdi for sprogteknologi, og at behovet for efterbehandling i de fleste tilfælde er minimalt. Men det står også klart, at der er udfordringer med adgangen til de fleste af disse data i forbindelse med f.eks. ophavsret, databeskyttelsesordningen og arkivloven, hvorfor der er behov for mere fokus på at undersøge, om disse udfordringer kan løses.

 

Digitaliseringsstyrelsen vil kigge ind i fire handlingsforløb

På baggrund af workshoppen, har Digitaliseringsstyrelsen besluttet at kigge ind i fire handlingsforløb, som kan hjælpe med at adressere nogle af de udfordringer og pointer, som workshoppen har rejst. Digitaliseringsstyrelsen vil:

  1. Indgå i en dialog med de fire oplægsholdere for at afdække muligheden for at få (dele af) deres sprogdata tilgængeliggjort og udstillet på sprogteknologi.dk.
  2. Udtænke et format for et ”netværk for danske sprogressourcer”, hvor aktører kan udveksle erfaringer med og koordinere udviklingen af nye danske sprogressourcer.
  3. Undersøge mulige løsninger på de mest gængse udfordringer med ophavsret og personoplysninger i forhold til at tilgængeliggøre værdifulde data, som på nuværende tidspunkt ikke er udstillet frit.
  4. Gøre det lettere at anvende de mange sprogdata, som henvises til på sprogteknologi.dk. I den forbindelse vil Digitaliseringsstyrelsen undersøge, om der kan laves én samlet sprogressource på baggrund af de data, der henvises til på sprogteknologi.dk.

 

Slides med spørgsmål og opsummering

præsentationen fra workshoppen fremgår pointer i noteform, som grupperne præsenterede på workshoppen. Der opsummeres først tværgående pointer fra diskussionerne af workshoppens to hovedspørgsmål, og dernæst præsenteres de konkrete handlingspunkter, som Digitaliseringsstyrelsen på baggrund af workshoppen har sat sig for. Til sidst præsenteres gruppernes diskussionsnoter for hvert af de respektive oplæg.