Nyhetsartiklar och förstasidor från 19 svenska nyhetssajter under coronapandemin 2020-2021

Peter M. Dahlgren

doi:10.5878/d18f-q220

Nyhetsartiklar och förstasidor från 19 svenska nyhetssajter under coronapandemin 2020-2021

https://doi.org/10.5878/d18f-q220

Detta dataset innehåller nyhetsartiklar från svenska nyhetssajter under coronapandemin 2020–2021. Syftet var att utveckla och testa nya metoder för insamling och analyser av stora nyhetsmaterial. Totalt finns det 677 151 artiklar insamlade från 19 nyhetssajter under 2020-01-01 till 2021-04-26. Artiklarna samlades in genom web scraping av alla länkar på nyhetssajterna varannan timme, dag och natt. Datasetet innehåller också cirka 45 miljoner tidsstämplar där artiklarna fanns på förstasidorna (hemsidorna och huvudavdelningarna på varje nyhetssajt, exempelvis inrikes, sport, ledare, etc.). Detta möjliggör detaljerad analys av vilka artiklar läsare sannolikt exponerades för när de besökte nyhetssajten ifråga. Tidsupplösningen är (som tidigare nämnts) två timmar, vilket innebär att du kan upptäcka förändringar i vilka artiklar som fanns på förstasidorna varannan timme. De 19 nyhetssajterna är aftonbladet.se, arbetet.se, da.se, di.se, dn.se, etc.se, expressen.se, feministisktperspektiv.se, friatider.se, gp.se, nyatider.se , nyheteridag.se, samnytt.se, samtiden.nu, svd.se, sverigesradio.se, svt.se, sydsvenskan.se och vlt.se. På grund av upphovsrätt är hela texten inte tillgänglig utan har omvandlats till en så kallad document-term matrix (i long format) som innehåller frekvensen av alla ord för varje artikel (totalt 80 miljoner ord). Varje artikel innehåller också omfattande metadata som extraherades från artiklarna (URL, dokumenttitel, artikelrubrik, författare, publiceringsdatum, redigeringsdatum, språk, avsnitt, taggar, kategori) och metadata som härleddes av enkla heuristiska algoritmer (sidtyp , artikelgenre, betalvägg). Datasetet består av följande: article_metadata.csv (53 MB): Filen innehåller information om varje nyhetsartikel, en artikel per rad. Totalt finns det 677,151 observationer och 17 variabler. article_text.csv (236 MB): Filen innehåller id till varje nyhetsartikel och anger hur många gånger ett specifikt ord används i en nyhetsartikel. Filen innehåller 80,090,784 observationer and 3 variabler i long format. frontpage_timestamps.csv (175 MB): Filen anger när varje nyhetsartikel hittades på första sidan (hemsida och huvudsektioner) på nyhetssidorna. Filen innehåller 45,337,740 observationer och 4 variabler i long format. Mer information om innehållet i filerna finns i README-filen. Där finns även R-kod för användning av data.

Ladda ner data och dokumentation (2 filer / 456.06 MiB)

Datafiler

News articles and front pages corona pandemic 2020–2021.zip
455.82 MiB
Ladda ner: News articles and front pages corona pandemic 2020–2021.zip

Dokumentationsfiler

README.pdf
249.82 KiB
Ladda ner: README.pdf

Citering och åtkomst

Data innehåller personuppgifter:

Nej

Citering:

Licens:

Creative Commons Erkännande 4.0 Internationell (CC BY 4.0)

Språk:

Metod och utfall

Analysenhet:

Population:

Nyhetsartiklar

Tidsdimension:

Longitudinell

Urvalsmetod:

Hela populationen/total räkning

Beskrivning av urval:

Artiklarna samlades in genom web scraping av alla länkar på 19 svenska nyhetssajter varannan timme, dag och natt. Verktyget för web scraping är publicerat med öppen källkod och finns tillgängligt på: https://github.com/peterdalle/mechanicalnews

Tidsperiod(er) som undersökts:

2021-01-01 - 2021-04-26

Variabler:

17

Antal individer/objekt:

677151

Dataformat/datastruktur:

Text

Datainsamling - Övrigt

Insamlingsmetod:

Övrigt

Tidsperiod(er) för datainsamling:

2019 - 2019

Datakälla:

Kommunikation: Offentlig
Kommunikation

Geografisk täckning

Geografisk plats:

Sverige

Administrativ information

Ansvarig institution/enhet:

Institutionen för journalistik, medier och kommunikation (JMG)

Finansiering

Finansiär:

Myndigheten för samhällsskydd och beredskap (MSB)

Ämnesområde och nyckelord

Ämnesklassificering enligt CESSDA:

Standard för svensk indelning av forskningsämnen 2025:

Nyckelord:

Covid-19

Relationer

Hemsida:

KRISAMS (Kriskommunikation och samhällsförtroende i det multipublika samhället)

Publikationer

Citering:

Dahlgren, P. M. (2021). Svenskar eller utrikesfödda i medierna? – att identifiera födelseland från namn. I L. Truedson & J. Lundqvist (Red.), Vitt eller brett? – vilka får ta plats i medier och på redaktioner. Stockholm: Institutet för mediestudier.

ISBN:
978-91-987098-0-3

Citering:

Dahlgren, P. M. (2021). Medieinnehåll och mediekonsumtion under coronapandemin: Datoriserade metoder för insamling och analys av stora mängder text- och mediedata. Göteborg: Institutionen för journalistik, medier och kommunikation (JMG), Göteborgs universitet.

ISSN:
1101-4679

Metadata

Version 1

Nyhetsartiklar och förstasidor från 19 svenska nyhetssajter under coronapandemin 2020-2021

Datafiler

Dokumentationsfiler

Citering och åtkomst

Tillgänglighetsnivå:

Skapare/​primärforskare:

Forskningshuvudman:

Data innehåller personuppgifter:

Citering:

Licens:

Språk:

Metod och utfall

Analysenhet:

Population:

Tidsdimension:

Urvalsmetod:

Beskrivning av urval:

Tidsperiod(er) som undersökts:

Variabler:

Antal individer/​objekt:

Dataformat/​datastruktur:

Datainsamling - Övrigt

Insamlingsmetod:

Tidsperiod(er) för datainsamling:

Datakälla:

Geografisk täckning

Geografisk plats:

Administrativ information

Ansvarig institution/​enhet:

Finansiering

Finansiär:

Ämnesområde och nyckelord

Ämnesklassificering enligt CESSDA:

Standard för svensk indelning av forskningsämnen 2025:

Nyckelord:

Relationer

Hemsida:

Publikationer

Citering:

ISBN:

Citering:

ISSN:

Metadata

Skapare/primärforskare:

Antal individer/objekt:

Dataformat/datastruktur:

Ansvarig institution/enhet: