NST N-gram - Danish News Text

Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken. Aviserne er fra perioden 1995-1999. Korpuset blev oprindeligt udviklet af Nordic Language Technology (NST) i perioden 1997-2003. N-grammerne blev oprettet af Uni Research til det norske nationalbibliotek. Sekvenser på et til seks ord genereres (unigram, bigram, trigram, 4-gram, 5-gram og 6-gram) og sorteres derefter alfabetisk og efter frekvens. Der kan også downloades en forenklet version med de 1000 hyppigste n-grammer af alle ovennævnte typer. Licens: https://creativecommons.org/publicdomain/zero/1.0/

Data og Distribution(er)

Yderligere info

Felt Værdi
Destinationsside https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-28/
Forfatter Nordisk språkteknologi AS, Universitetet i Bergen
Metadata sidst opdateret februar 22, 2021, 10:21 (UTC)
Metadata oprettet maj 13, 2020, 15:24 (UTC)
Dækningsperiode slut 1999
Dækningsperiode start 1995
Emne Sprog og retskrivning Uddannelse, kultur og sport
GUID sbr-28
Identifier sbr-28
Kontaktemail nb@nb.no
Kontaktnavn Nasjonalbiblioteket
Opdateret 11-06-2012
Udgivelsesdato 11-06-2012
Udgivernavn Nationalbibliotektet i Norge
Type https://data.gov.dk/concept/core/lang-resource-type/Corpus
Dokumentation
hasQualityMetadata no
usage ["udvikling af sprogmodeller", "statistisk analyse"]