Danish Data Science Community - Udgivere

Synthetic from Text Matching Long Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The...

Parquet

Synthetic from Classification Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish text classification tasks. The dataset consists of 100,000 samples generated with...

Parquet

Synthetic from Text Matching Short Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks on short texts. The dataset consists of 100,000 samples generated with...

Parquet

Synthetic from Retrieval Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish retrieval tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The...

Parquet

Synthetic from Unit Triple Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish on text similarity tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it....

Parquet

da-wikipedia-queries

Formålet med dette datasæt er at træne embedding-modeller til retrieval på dansk. Dette datasæt blev oprettet ved at vise ca. 30.000 Wikipedia-afsnit til LLM’er og bede dem om...

Parquet

Syntetisk dialog opsummering raw

Thanks to NVIDIA and Arrow Denmark for sponsoring the compute needed to generate this dataset This dataset conists of 1,000,000 synthetic dialogs in Danish and a summary of each...

Parquet

RøBÆRTa

RøBÆRTa er en dansk præ-trænet Roberta sprogmodel. RøBÆRTa er blevet trænet på det danske mC4 datasæt i forbindelse med flax community week. Modellen er trænet til at gætte et...

Binary Data

The Leipzig Collection - Dansk sentiment

Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En...

CSV
HTML

Europarl

Europarl er dansk data fra Europa Parlamentet som er blevet annoteret til sentiment analyse af Alexandra Instituttet. Datasættets struktur: En række består af de følgende...

ZIP

Angry Tweets Binary

Dette datasæt består af anonymiserede danske Twitter data, som er blev annoteret for sentimentanalysee gennem crowd-sourcing. Alt anerkendelse skal gives til forfatterne til...

HTML

11 sprogressourcer fundet