Sprogressourcer

Fokus og kriterier for sprogressourcer

Platformen sprogteknologi.dk samler metadata om en lang række danske sprogressourcer, som kan benyttes til udvikling af dansk sprogteknologi inden for de angivne licensvilkår. Dog er visse sprogressourcer begrænset til forskningsbrug. Fokus har i første omgang primært været på relevante danske udgivere af ikke-kommercielle sprogressourcer, suppleret af udenlandske. Platformen vil løbende blive udvidet med nye metadata om eksisterende sprogressourcer. Målet er at udbygge sprogteknologi.dk, så den på sigt også tilbyder egne nyudviklede sprogressourcer til fri afbenyttelse for sprogteknologiske formål.

Hvis man som bruger har spørgsmål til de enkelte sprogressourcer, opfordrer vi til, at man retter henvendelse til det kontaktpunkt, der er angivet i sprogressourcens metadata.

Sådan deler du sprogressourcer

Har du danske sprogressourcer, som du ønsker at dele frit via sprogteknologi.dk, kan du kontakte info@sprogteknologi.dk.

Hvad er sprogressourcer?

En sprogressource  er en ressource, som kan anvendes til at løse en sprogrelateret opgave.

Overordnet kan sprogressourcer beskrives ift. et udviklingsworkflow: Sprogdata og sprogteknologiske supportværktøjer, som danner træningsfundamentet for udviklingen af nye sprogteknologiske infrastrukturkomponenter. Disse tre elementer indgår på sprogteknologi.dk, mens egentlige softwareløsninger, som er slutprodukter til brugerne, ikke indgår.

Sprogressourcer
 
I scope af sprogteknologi.dk
 
   


Sprogdata

Talekorpora
Tekstkorpora
Ordbøger
Termbaser


 


Sprogteknologisk supportværktøj

Dataindsamlingsværktøjer
Anonymiseringsværktøjer
Værktøjer til automatisk opmærkning
Værktøjer til manuel opmærkning
Modeltræningsværktøjer
(...)
 

Sprogteknologisk infrastrukturkomponent

Talegenkendelseskomponent
Talesyntesekomponent
Sprogforståelseskomponent
Maskinoversættelseskomponent
(...)

 


Slutbruger softwareløsning

Tale-til-tekst
Tekst-til-tale
Dialogsystem
Maskinoversættelsessystem
Læse-/skriveværktøj
(...)
 

 

Sprogressourcer ift. udviklingsworkflow

Beskrivelse og afgrænsning af ovenstående sprogressourcer:

  1. Sprogdata udgør den centrale ressource for udvikling af sprogteknologi og består af forskellige former for elektronisk lagrede tekst- eller talesamlinger eller leksikalske sprogressourcer såsom ordbøger og termbaser. Sprogdataressourcerne omtales ofte som tekstkorpora, talekorpora eller leksikalske ressourcer.
     
  2. Sprogteknologisk supportværktøj er også sprogressourcer, da det er værktøj, der understøtter indsamling og forarbejdning af sprogdata ved anonymisering eller opmærkning. Begrebet dækker ligeledes over værktøjer og toolkits til træning af fx sprogmodeller og akustiske modeller.
     
  3. Sprogteknologiske infrastrukturkomponenter kan forstås som genbrugelige, modulære komponenter med et bestemt anvendelsesformål såsom talegenkendelse, talesyntese, sprogforståelse eller maskinoversættelse, og som kan integreres i flere forskellige softwareløsninger. 

Uden for sprogteknologi.dk falder:

  1. Softwareløsninger er sprogressourcer i form af de endelige sprogløsninger, der er målrettet slutbrugeren. 

 

Sprogressourcetyper ift. indhold

På forsiden af portalen og i menuen 'Typer' er følgende sprogressourcetyper anvendt for at gøre det nemmere at fremsøge relevant indhold:

  • Korpora omfatter sprogdata i form af samlinger af tale og tekst.
     
  • Leksikalske ressourcer omfatter sprogdata i form af leksikalske opslagsværker såsom ordbøger og termbaser.
     
  • Værktøjer og teknologi omfatter sprogteknologiske supportværktøjer og infrastrukturkomponenter. Af eksempler på infrastrukturkomponenter der falder i denne kategori, kan nævnes akustiske modeller, sprogmodeller, afkodningsgrafer, algoritmer, mm.

Denne inddeling er i overensstemmelse med The META-SHARE Metadata Schema for the Description of Language Resources (LexicalConceptualResource, Corpus, ToolService).