Applikation og datamodel

Med sprogteknologi.dk adresseres behovet for et offentligt tilgængeligt katalog over danske sprogteknologiske ressourcer. Portalen understøtter samtidig 'direktivet om åbne data og den offentlige sektors informationer' (PSI-direktivet) gennem en datakatalogapplikation.

Vi udvikler løbende sprogteknologi.dk og vil tilføje flere funktionaliteter og metadatafelter i et agilt udviklingsforløb.

I det følgende beskrives dels den primære applikation samt den bagvedliggende datamodel.

Applikationen

Løsningens primære applikationskomponent udgøres i version 1.0 af en open-source dataportalplatform, CKAN, som i sin standardimplementering med en tilhørende CKAN-database udstiller en brugergrænseflade (CKAN GUI) samt et programmeringsinterface (CKAN API) (se: https://ckan.org/).

Standardudgaven er i denne løsning udvidet med en række såkaldte extensions med plugins, som tilføjer ny funktionalitet til løsningen, fx høstfunktionaliteter, der gør det muligt at hente metadatabeskrivelser fra eksempelvis andre CKAN-instanser eller fra et DCAT-AP-kompatible datadump. I sprogteknologi.dk høstes eksempelvis metadata omkring EU's DGT-Translation Memory (oversættelseshukommelse) og SDFE's DK INSPIRE Named place (stednavne) automatisk, og denne metadataindsamlingsmetode vil vi gerne fremme.

Brugergrænsefladen er også tilpasset dansk anvendelse. Den danske tilpasning er implementeret via en custom extension. Yderligere extensions, som dog ikke er beskrevet her, er hentet fra https://extensions.ckan.org/. 

Via udvidelsen ckanext-dcat understøtter sprogteknologi.dk specifikationen og datamodellen DCAT-AP.

 

Datamodellen

DCAT-AP

Metadata om sprogteknologiske ressourcer er i overensstemmelse med DCAT-AP-specifikationen. DCAT-AP er EU-Kommissionens anvendelsesprofil til beskrivelse af datasæt i datakataloger, og specifikationen har til formål at standardisere og etablere sammenhæng mellem dataportaler i de europæiske medlemslande. Udvidelsen ckanext-dcat understøtter pt. DCAT-AP 1.1. For at kunne tilføje oplysninger der er specifikke for emneområdet sprogteknologi, er en specialiseret anvendelsesprofil til beskrivelse af sprogteknologiske datasæt under udvikling (langDCAT-AP).

langDCAT-AP

Der er udarbejdet et udkast til langDCAT-AP, som er en sprogressourcespecifik anvendelsesprofil, der vil gøre det muligt at tilføje oplysninger såsom annotationstype, størrelse (fx antal ord/sætninger) og lignende sprogspecifikke oplysninger importeret fra The META-SHARE Metadata Schema.

Derudover kan denne anvendelsesprofil modelleres til at indeholde eksempelvis oplysninger om - ikke blot 'udgiver' - men også 'skaber' eller 'bidragsyder' samt forventet primær anvendelse af en given ressource med afsæt i W3Cs Data on the Web Best Practices: Dataset Usage Vocabulary, fx at et datasæt kan være særligt velegnet til talesyntese. Derudover vil vi også se på mulighederne i at understøtte Data Statements for Natural Language Processing og dermed mitigere systematisk bias.

Anvendelsesprofilen langDCAT-AP vil i øvrigt blive opdateret i henhold til den danske anvendelsesprofil for beskrivelse af datasæt og datakataloger DCAT-AP-DK 2.0, når denne er godkendt. Læs mere om DCAT-AP-DK på dette link: https://digst.github.io/DCAT-AP-DK/releases/v.2.0/docs/.

Bemærk at DCAT-AP 1.1 er implementeret i den aktuelle version af sprogteknologi.dk, og at understøttelse af langDCAT-AP (og DCAT-AP 2.0) vil blive implementeret efterfølgende.