Nyhetsartiklar och förstasidor från 19 svenska nyhetssajter under coronapandemin 2020-2021

DOI

This dataset contains news articles from Swedish news sites during the covid-19 corona pandemic 2020–2021. The purpose was to develop and test new methods for collection and analyses of large news corpora by computational means. In total, there are 677,151 articles collected from 19 news sites during 2020-01-01 to 2021-04-26. The articles were collected by scraping all links on the homepages and main sections of each site every two hours, day and night. The dataset also includes about 45 million timestamps at which the articles were present on the front pages (homepages and main sections of each news site, such as domestic news, sports, editorials, etc.). This allows for detailed analysis of what articles any reader likely was exposed to when visiting a news site. The time resolution is (as stated previously) two hours, meaning that you can detect changes in which articles were on the front pages every two hours. The 19 news sites are aftonbladet.se, arbetet.se, da.se, di.se, dn.se, etc.se, expressen.se, feministisktperspektiv.se, friatider.se, gp.se, nyatider.se, nyheteridag.se, samnytt.se, samtiden.nu, svd.se, sverigesradio.se, svt.se, sydsvenskan.se and vlt.se. Due to copyright, the full text is not available but instead transformed into a document-term matrix (in long format) which contains the frequency of all words for each article (in total, 80 million words). Each article also includes extensive metadata that was extracted from the articles themselves (URL, document title, article heading, author, publish date, edit date, language, section, tags, category) and metadata that was inferred by simple heuristic algorithms (page type, article genre, paywall).

Detta dataset innehåller nyhetsartiklar från svenska nyhetssajter under coronapandemin 2020–2021. Syftet var att utveckla och testa nya metoder för insamling och analyser av stora nyhetsmaterial. Totalt finns det 677 151 artiklar insamlade från 19 nyhetssajter under 2020-01-01 till 2021-04-26. Artiklarna samlades in genom web scraping av alla länkar på nyhetssajterna varannan timme, dag och natt. Datasetet innehåller också cirka 45 miljoner tidsstämplar där artiklarna fanns på förstasidorna (hemsidorna och huvudavdelningarna på varje nyhetssajt, exempelvis inrikes, sport, ledare, etc.). Detta möjliggör detaljerad analys av vilka artiklar läsare sannolikt exponerades för när de besökte nyhetssajten ifråga. Tidsupplösningen är (som tidigare nämnts) två timmar, vilket innebär att du kan upptäcka förändringar i vilka artiklar som fanns på förstasidorna varannan timme. De 19 nyhetssajterna är aftonbladet.se, arbetet.se, da.se, di.se, dn.se, etc.se, expressen.se, feministisktperspektiv.se, friatider.se, gp.se, nyatider.se , nyheteridag.se, samnytt.se, samtiden.nu, svd.se, sverigesradio.se, svt.se, sydsvenskan.se och vlt.se. På grund av upphovsrätt är hela texten inte tillgänglig utan har omvandlats till en så kallad document-term matrix (i long format) som innehåller frekvensen av alla ord för varje artikel (totalt 80 miljoner ord). Varje artikel innehåller också omfattande metadata som extraherades från artiklarna (URL, dokumenttitel, artikelrubrik, författare, publiceringsdatum, redigeringsdatum, språk, avsnitt, taggar, kategori) och metadata som härleddes av enkla heuristiska algoritmer (sidtyp , artikelgenre, betalvägg).

An open source web scraper scraped news articles from 19 Swedish news sites every two hours. Code in Python for the web scraper is available at: https://github.com/peterdalle/mechanicalnews

Artiklarna samlades in genom web scraping av alla länkar på 19 svenska nyhetssajter varannan timme, dag och natt. Verktyget för web scraping är publicerat med öppen källkod och finns tillgängligt på: https://github.com/peterdalle/mechanicalnews

Total universe/Complete enumeration

Hela populationen/total räkning

Other

Övrigt

Identifier
DOI https://doi.org/10.5878/eycd-nk88
Metadata Access https://datacatalogue.cessda.eu/oai-pmh/v0/oai?verb=GetRecord&metadataPrefix=oai_ddi25&identifier=5401226a0188147975aa638043cf359a705928e9ae0ed4dad3da7a573d1997c6
Provenance
Creator Peter M. Dahlgren
Publisher Swedish National Data Service; Svensk nationell datatjänst
Publication Year 2021
Rights Access to data through SND. Data are freely accessible.; Åtkomst till data via SND. Data är fritt tillgängliga.
OpenAccess true
Contact https://snd.gu.se
Representation
Language English
Discipline Humanities; Linguistics
Spatial Coverage Sweden; Sverige