ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter de blev filtreret ved FastText detection modellen. Alle kommentarer, der blev registreret som dansk, norsk, svensk eller islandsk, med en confidence score over 70%, blev gemt.
De resterende kommentarer blev tjekket for dubletter, som resulterede i at omkring 438000 kommentarer blev slettet. 5000 bot kommentarer og omkring 189000 upassende kommentarer blev ligeledes fjernet. Til sidst, blev også nær-dubletter fjernet. Det er alle, der har over 80% af deres ord 5-grams til fælles.
Datasættets primære opgave er træning af sprogmodeller, og er tilgængeligt på dansk, svensk, norsk og islandsk under CC BY 4.0 licens.
Dan Saattrup Nielsen fra Alexandra Instituttet har kureret datasættet.