DaCy

DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser for at brugeren kan vælge mellem eget hastighed eller bedre prediktioner. Pipelinen er trænet og implementeret i SpaCy og har opnået den bedste performance på en række danske sprogteknologiske opgaver, heriblandt entitetsgenkendelse (Named-entity recognition), grammatisk tagging samt syntaktisk analyse (part-of-speech tagging og dependency parsing). Projektet indeholder både dokumentation over træning af modellen samt dokumentation for bruget af modellen. Foruden dens egne trænede modeller kan man i DaCy også benytte andre danske sprogteknologier heriblandt værktøjer til kvantificering af følelsesladet indhold i tekst.

Data og Distribution(er)

DaCyPython
Tilgå DaCy Python pakke via GitHub.
Mere information

Yderligere info test

Felt	Værdi
Destinationsside	https://github.com/KennethEnevoldsen/DaCy
Metadata sidst opdateret	december 8, 2022, 09:48 (UTC)
Metadata oprettet	juni 1, 2021, 11:08 (UTC)
Datastatement	Indledende resultater har vist at DaCy klarer sig bedre og på kvindelige og ikke-danske navne end sammenliglige danske modeller. Denne test er blevet udført af personer uden relation til DaCy projektet. For mere information se Martin Jespersens Benchmark på Fairness. https://github.com/martincjespersen/DaAnonymization
Documentation	https://github.com/KennethEnevoldsen/DaCy
Emne	Sprog og retskrivning Uddannelse, kultur og sport
Kontaktemail	kenneth.enevoldsen@cas.au.dk
Kontaktnavn	Kenneth Enevoldsen
Opdateret	28-05-2021
Opdateringsfrekvens	kontinuerlig
Overholder	https://spacy.io/usage/projects
Sprog	Dansk
URI	https://data.gov.dk/dataset/lang/fb005c42-555b-4a40-b502-94d3f57e3d3e
Udgivernavn	Kenneth Enevoldsen
type	https://data.gov.dk/concept/core/lang-resource-type/Tool
published	28-02-2021
usage	"Databehandling", "Dataanalyse" "Entitetsgenkendelse", "grammatisk tagging", "syntaktisk analyse"