Applikation og datamodel

Med sprogteknologi.dk adresseres behovet for et offentligt tilgængeligt katalog over danske sprogteknologiske ressourcer. Portalen understøtter samtidig 'direktivet om åbne data og den offentlige sektors informationer' (PSI-direktivet) gennem en datakatalogapplikation.

Vi udvikler løbende sprogteknologi.dk og vil tilføje flere funktionaliteter og metadatafelter i et agilt udviklingsforløb.

I det følgende beskrives dels den primære applikation samt den bagvedliggende datamodel.

Applikationen

Løsningens primære applikationskomponent udgøres i version 1.0 af en open-source dataportalplatform, CKAN, som i sin standardimplementering med en tilhørende CKAN-database udstiller en brugergrænseflade (CKAN GUI) samt et programmeringsinterface (CKAN API) (se: https://ckan.org/).

Standardudgaven er i denne løsning udvidet med en række såkaldte extensions med plugins, som tilføjer ny funktionalitet til løsningen, fx høstfunktionaliteter, der gør det muligt at hente metadatabeskrivelser fra eksempelvis andre CKAN-instanser eller fra et DCAT-AP-kompatible datadump. I sprogteknologi.dk høstes eksempelvis metadata omkring EU's DGT-Translation Memory (oversættelseshukommelse) og SDFE's DK INSPIRE Named place (stednavne) automatisk, og denne metadataindsamlingsmetode vil vi gerne fremme.

Brugergrænsefladen er også tilpasset dansk anvendelse. Den danske tilpasning er implementeret via en custom extension. Yderligere extensions, som dog ikke er beskrevet her, er hentet fra https://extensions.ckan.org/. 

Via udvidelsen ckanext-dcat understøtter sprogteknologi.dk specifikationen og datamodellen DCAT-AP.

Datamodellen

DCAT-AP

Metadata om sprogteknologiske ressourcer er i overensstemmelse med DCAT-AP-specifikationen. DCAT-AP er EU-Kommissionens anvendelsesprofil til beskrivelse af datasæt i datakataloger, og specifikationen har til formål at standardisere og etablere sammenhæng mellem dataportaler i de europæiske medlemslande. Udvidelsen ckanext-dcat understøtter pt. DCAT-AP 1.1. For at kunne tilføje oplysninger der er specifikke for emneområdet sprogteknologi, er en specialiseret anvendelsesprofil til beskrivelse af sprogteknologiske datasæt under udvikling (langDCAT-AP).