Danish Dependency Treebank (DaNE)

DaNE adds NER annotations to the The Danish Universal Dependencies Treebank (UD-DDT). The Danish UD treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish Dependency Treebank (Buch-Kromann et al. 2003) based on texts from Parole (Britt, 1998). UD-DDT has annotations for dependency parsing and POS. The dataset was annotated with Named Entities for PER, ORG and LOC by the Alexandra Institute in the DaNE dataset (Hvingelby et al. 2020). To read more about how the dataset was annotated with POS and DEP tags we refer to the Universal Dependencies page. License: https://creativecommons.org/licenses/by-sa/4.0/

Data og Distribution(er)

Yderligere info

Felt Værdi
Destinationsside https://github.com/alexandrainst/danlp/blob/master/docs/docs/datasets.md
Metadata sidst opdateret Juli 9, 2021, 06:24 (UTC)
Metadata oprettet Juli 9, 2021, 06:24 (UTC)
Emne Sprog og retskrivning Uddannelse, kultur og sport https://www.form-online.dk/opgavenoegle/12/#12
GUID https://data.gov.dk/dataset/lang/5ad636fe-fd77-468b-b351-d7cf2ed80d58
Kontaktemail alexandra@alexandra.dk
Kontaktnavn Alexandra Instituttet
Opdateret 2020-05
Opdateringsfrekvens NEVER
URI https://data.gov.dk/dataset/lang/5ad636fe-fd77-468b-b351-d7cf2ed80d58
Udgivelsesdato 2020-05
Udgivernavn Alexandra Instituttet
datastatement A. CURATION RATIONALE: Formålet med DaNE (Hvingelby et al. 2020) datasættet er at skabe et lille datasæt annoteret med navne enhederne personer (PER), location (LOC) og organisationer (ORG), så det ud fra datasættet er muligt at lave en model der automatisk genkender disse navne enheder. Teksten i datasættet er fra Danish UD treebank (Johannsen et al., 2015, UD-DDT) som er en konversion af Danish Dependency Treebank (Buch-Kromann et al. 2003) baseret på tekst fra Parole (Britt, 1998). For flere information on selve tekstens oprindelse og karakter henvises til disse kilder. B. ANNOTATOR DEMOGRAPHIC: Datasættet er dobbelt annoteret, først af en lingvistisk og derefter af seks forskellige ikke-lingvister uden overlap. Efterfølgende er evt. konflikter løst. Alle annoterer har modersmål dansk og imellem 25-50 år. Guidelines for annoteringerne følger retningslinjerne i CoNLL-2003 NE annotation scheme (Tjong Kim Sang and De Meulder, 2003) for Lokationer (LOC), personer (PER) og organisationer (ORG). REFERENCER: Johannsen, Anders, Martínez Alonso, Héctor and Plank, Barbara. “Universal Dependencies for Danish”. TLT14, 2015. Keson, Britt (1998). Documentation of The Danish Morpho-syntactically Tagged PAROLE Corpus. Technical report, DSL Rasmus Hvingelby, Amalie B. Pauli, Maria Barrett, Christina Rosted, Lasse M. Lidegaard and Anders Søgaard. 2020. DaNE: A Named Entity Resource for Danish. In LREC. Tjong Kim Sang, E. F. and De Meulder, F. (2003). Introduction to the CoNLL-2003 shared task: Languageindependent named entity recognition. In Proceedings of the Seventh Conference on Natural Lan
Type Værktøjer og teknologi
Dokumentation
Kildedatasæt
usage ["Navnegenkendelse"]