Compilation of Danish-English parallel corpora resources used for training of NTEU Machine Translation engines.

Dette tosproget korpora er bygget af en række forskellige korpusser fra udvalgte offentlige og private korpus og er blevet brugt til at træne NTEU (Neural Translation for the European Union) oversættelsesmaskiner. Læs mere om NTEU. Det indeholder hele 13,756,128 oversættelsespar mellem dansk og engelsk. I korpusset er størstedelen af de tosproget korpus, som findes i ELRC kataloget, som også er udgivet enkeltvis, indgået og der er blevet suppleret med et par andre korpora. Samlingsarbejdet er derfor allerede gjort for dig i denne.

Du kan få et overblik over de medtagne korpus i ReadMe filen som følger med korpusset.

Data og Distribution(er)

Yderligere info

Felt Værdi
Destinationsside https://elrc-share.eu/repository/browse/compilation-of-danish-english-parallel-corpora-resources-used-for-training-of-nteu-machine-translation-engines/423b5f5ab40911eb9c1a00155d026706fee6591ed6204feb9466fdc7f15db5ec/
Metadata sidst opdateret november 21, 2022, 12:41 (UTC)
Metadata oprettet juli 12, 2021, 10:21 (UTC)
Emne Sprog og retskrivning Uddannelse, kultur og sport Regeringen og den offentlige sektor
GUID 423b5f5ab40911eb9c1a00155d026706fee6591ed6204feb9466fdc7f15db5ec
Kontaktemail roberts.rozis@tilde.com
Kontaktnavn Roberts Rozis
Opdateret 2021-05-12
Sprog dansk engelsk
Udgivelsesdato 2021-05-12
Type https://data.gov.dk/concept/core/lang-resource-type/Corpus
Udgivernavn EU