<codeBook xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xsi:schemaLocation="ddi:codebook:2_5 http://www.ddialliance.org/Specification/DDI-Codebook/2.5/XMLSchema/codebook.xsd" xmlns="ddi:codebook:2_5">
  <docDscr>
    <citation>
      <titlStmt>
        <titl xml:lang="sv">Nyhetsartiklar och förstasidor från 19 svenska nyhetssajter under coronapandemin 2020-2021</titl>
        <parTitl xml:lang="en">News articles and front pages from 19 Swedish news sites during the covid-19/corona pandemic 2020–2021</parTitl>
        <IDNo agency="SND">2021-256-1-1</IDNo>
        <IDNo agency="DOI">https://doi.org/10.5878/d18f-q220</IDNo>
      </titlStmt>
      <prodStmt>
        <producer xml:lang="en" abbr="SND">Swedish National Data Service</producer>
        <producer xml:lang="sv" abbr="SND">Svensk nationell datatjänst</producer>
      </prodStmt>
      <holdings URI="https://doi.org/10.5878/d18f-q220">Landing page</holdings>
    </citation>
  </docDscr>
  <stdyDscr>
    <citation>
      <titlStmt>
        <titl xml:lang="sv">Nyhetsartiklar och förstasidor från 19 svenska nyhetssajter under coronapandemin 2020-2021</titl>
        <parTitl xml:lang="en">News articles and front pages from 19 Swedish news sites during the covid-19/corona pandemic 2020–2021</parTitl>
        <IDNo agency="SND">2021-256-1-1</IDNo>
        <IDNo agency="DOI">https://doi.org/10.5878/d18f-q220</IDNo>
        <IDNo agency="ISBN">978-91-987098-0-3</IDNo>
        <IDNo agency="ISSN">1101-4679</IDNo>
      </titlStmt>
      <rspStmt>
        <AuthEnty xml:lang="en" affiliation="Department of Journalism, Media and Communication (JMG), University of Gothenburg">Dahlgren, Peter M.</AuthEnty>
        <AuthEnty xml:lang="sv" affiliation="Institutionen för journalistik, medier och kommunikation (JMG), Göteborgs universitet">Dahlgren, Peter M.</AuthEnty>
      </rspStmt>
      <prodStmt />
      <distStmt>
        <distrbtr xml:lang="en" abbr="SND" URI="https://snd.se">Swedish National Data Service</distrbtr>
        <distrbtr xml:lang="sv" abbr="SND" URI="https://snd.se">Svensk nationell datatjänst</distrbtr>
        <distDate xml:lang="en" date="2021-11-02" />
      </distStmt>
      <verStmt>
        <version elementVersion="1" elementVersionDate="2021-11-02" />
      </verStmt>
      <holdings URI="https://doi.org/10.5878/d18f-q220">Landing page</holdings>
    </citation>
    <stdyInfo>
      <subject>
        <keyword xml:lang="en" vocab="ELSST" vocabURI="https://elsst.cessda.eu/id/6/cada7016-ff7b-4b45-b9d5-420f04088b63">COVID-19</keyword>
        <keyword xml:lang="sv" vocab="ELSST" vocabURI="https://elsst.cessda.eu/id/6/cada7016-ff7b-4b45-b9d5-420f04088b63">COVID-19</keyword>
        <topcClas xml:lang="en" vocab="CESSDA Topic Classification" vocabURI="https://vocabularies.cessda.eu/vocabulary/TopicClassification?code=MediaCommunicationAndLanguage.Media">Media</topcClas>
        <topcClas xml:lang="sv" vocab="CESSDA Topic Classification" vocabURI="https://vocabularies.cessda.eu/vocabulary/TopicClassification?code=MediaCommunicationAndLanguage.Media">Media</topcClas>
        <topcClas xml:lang="en" vocab="CESSDA Topic Classification" vocabURI="https://vocabularies.cessda.eu/vocabulary/TopicClassification?code=MediaCommunicationAndLanguage.LanguageAndLinguistics">Language and linguistics</topcClas>
        <topcClas xml:lang="sv" vocab="CESSDA Topic Classification" vocabURI="https://vocabularies.cessda.eu/vocabulary/TopicClassification?code=MediaCommunicationAndLanguage.LanguageAndLinguistics">Språk och lingvistik</topcClas>
        <topcClas xml:lang="en" vocab="CESSDA Topic Classification" vocabURI="https://vocabularies.cessda.eu/vocabulary/TopicClassification?code=Health.PublicHealth">Public health</topcClas>
        <topcClas xml:lang="sv" vocab="CESSDA Topic Classification" vocabURI="https://vocabularies.cessda.eu/vocabulary/TopicClassification?code=Health.PublicHealth">Folkhälsa</topcClas>
      </subject>
      <abstract xml:lang="en" contentType="abstract">This dataset contains news articles from Swedish news sites during the covid-19 corona pandemic 2020–2021. The purpose was to develop and test new methods for collection and analyses of large news corpora by computational means. In total, there are 677,151 articles collected from 19 news sites during 2020-01-01 to 2021-04-26. The articles were collected by scraping all links on the homepages and main sections of each site every two hours, day and night.

The dataset also includes about 45 million timestamps at which the articles were present on the front pages (homepages and main sections of each news site, such as domestic news, sports, editorials, etc.). This allows for detailed analysis of what articles any reader likely was exposed to when visiting a news site. The time resolution is (as stated previously) two hours, meaning that you can detect changes in which articles were on the front pages every two hours. 

The 19 news sites are aftonbladet.se, arbetet.se, da.se, di.se, dn.se, etc.se, expressen.se, feministisktperspektiv.se, friatider.se, gp.se, nyatider.se, nyheteridag.se, samnytt.se, samtiden.nu, svd.se, sverigesradio.se, svt.se, sydsvenskan.se and vlt.se.

Due to copyright, the full text is not available but instead transformed into a document-term matrix (in long format) which contains the frequency of all words for each article (in total, 80 million words). Each article also includes extensive metadata that was extracted from the articles themselves (URL, document title, article heading, author, publish date, edit date, language, section, tags, category) and metadata that was inferred by simple heuristic algorithms (page type, article genre, paywall).

The dataset consists of the following:
article_metadata.csv (53 MB): The file contains information about each news article, one article per row. In total, there are 677,151 observations and 17 variables.

article_text.csv (236 MB): The file contains the id of each news article and how many times (count) a specific word occurs in the news article. The file contains 80,090,784 observations and 3 variables in long format.

frontpage_timestamps.csv (175 MB): The file contains when each news article was found on the front page (homepage and main sections) of the news sites. The file contains 45,337,740 observations and 4 variables in long format.

More information about the content in the files is found in the README-file. In it you will also find the R-script for using the data.</abstract>
      <abstract xml:lang="sv" contentType="abstract">Detta dataset innehåller nyhetsartiklar från svenska nyhetssajter under coronapandemin 2020–2021. Syftet var att utveckla och testa nya metoder för insamling och analyser av stora nyhetsmaterial. Totalt finns det 677 151 artiklar insamlade från 19 nyhetssajter under 2020-01-01 till 2021-04-26. Artiklarna samlades in genom web scraping av alla länkar på nyhetssajterna varannan timme, dag och natt.

Datasetet innehåller också cirka 45 miljoner tidsstämplar där artiklarna fanns på förstasidorna (hemsidorna och huvudavdelningarna på varje nyhetssajt, exempelvis inrikes, sport, ledare, etc.). Detta möjliggör detaljerad analys av vilka artiklar läsare sannolikt exponerades för när de besökte nyhetssajten ifråga. Tidsupplösningen är (som tidigare nämnts) två timmar, vilket innebär att du kan upptäcka förändringar i vilka artiklar som fanns på förstasidorna varannan timme. 

De 19 nyhetssajterna är aftonbladet.se, arbetet.se, da.se, di.se, dn.se, etc.se, expressen.se, feministisktperspektiv.se, friatider.se, gp.se, nyatider.se , nyheteridag.se, samnytt.se, samtiden.nu, svd.se, sverigesradio.se, svt.se, sydsvenskan.se och vlt.se.

På grund av upphovsrätt är hela texten inte tillgänglig utan har omvandlats till en så kallad document-term matrix (i long format) som innehåller frekvensen av alla ord för varje artikel (totalt 80 miljoner ord). Varje artikel innehåller också omfattande metadata som extraherades från artiklarna (URL, dokumenttitel, artikelrubrik, författare, publiceringsdatum, redigeringsdatum, språk, avsnitt, taggar, kategori) och metadata som härleddes av enkla heuristiska algoritmer (sidtyp , artikelgenre, betalvägg).

Datasetet består av följande:
article_metadata.csv (53 MB): Filen innehåller information om varje nyhetsartikel, en artikel per rad. Totalt finns det 677,151 observationer och 17 variabler. 

article_text.csv (236 MB): Filen innehåller id till varje nyhetsartikel och anger hur många gånger ett specifikt ord används i en nyhetsartikel. Filen innehåller 80,090,784 observationer and 3 variabler i long format.

frontpage_timestamps.csv (175 MB): Filen anger när varje nyhetsartikel hittades på första sidan (hemsida och huvudsektioner) på nyhetssidorna. Filen innehåller 45,337,740 observationer och 4 variabler i long format.

Mer information om innehållet i filerna finns i README-filen. Där finns även R-kod för användning av data.</abstract>
      <sumDscr>
        <collDate xml:lang="en" date="2019" event="start">2019</collDate>
        <collDate xml:lang="en" date="2019" event="end">2019</collDate>
        <nation xml:lang="en" abbr="SE">Sweden</nation>
        <nation xml:lang="sv" abbr="SE">Sverige</nation>
        <anlyUnit xml:lang="en" unit="Media unit: Text">Media unit: Text<concept vocab="DDI Analysis Unit" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/AnalysisUnit/2.1.3?languageVersion=en-2.1.3">Media unit: Text</concept></anlyUnit>
        <anlyUnit xml:lang="sv" unit="Mediaenhet: Text">Mediaenhet: Text<concept vocab="DDI Analysis Unit" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/AnalysisUnit/2.1.3?languageVersion=sv-2.1.3">Mediaenhet: Text</concept></anlyUnit>
        <universe xml:lang="en">News articles</universe>
        <universe xml:lang="sv">Nyhetsartiklar</universe>
        <dataKind xml:lang="en">Text</dataKind>
      </sumDscr>
    </stdyInfo>
    <method>
      <dataColl>
        <timeMeth xml:lang="en">Longitudinal<concept vocab="DDI Time Method" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/TimeMethod/1.2.3?languageVersion=en-1.2.3">Longitudinal</concept></timeMeth>
        <timeMeth xml:lang="sv">Longitudinell<concept vocab="DDI Time Method" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/TimeMethod/1.2.3?languageVersion=sv-1.2.3">Longitudinell</concept></timeMeth>
        <sampProc xml:lang="en">An open source web scraper scraped news articles from 19 Swedish news sites every two hours. Code in Python for the web scraper is available at: https://github.com/peterdalle/mechanicalnews<concept vocab="DDI Sampling Procedure" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/SamplingProcedure/2.0.1?languageVersion=en-2.0.1">An open source web scraper scraped news articles from 19 Swedish news sites every two hours. Code in Python for the web scraper is available at: https://github.com/peterdalle/mechanicalnews</concept></sampProc>
        <sampProc xml:lang="sv">Artiklarna samlades in genom web scraping av alla länkar på 19 svenska nyhetssajter varannan timme, dag och natt. Verktyget för web scraping är publicerat med öppen källkod och finns tillgängligt på: https://github.com/peterdalle/mechanicalnews<concept vocab="DDI Sampling Procedure" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/SamplingProcedure/2.0.1?languageVersion=sv-2.0.1">Artiklarna samlades in genom web scraping av alla länkar på 19 svenska nyhetssajter varannan timme, dag och natt. Verktyget för web scraping är publicerat med öppen källkod och finns tillgängligt på: https://github.com/peterdalle/mechanicalnews</concept></sampProc>
        <sampProc xml:lang="en">Total universe/Complete enumeration<concept vocab="DDI Sampling Procedure" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/SamplingProcedure/2.0.1?languageVersion=en-2.0.1">Total universe/Complete enumeration</concept></sampProc>
        <sampProc xml:lang="sv">Hela populationen/total räkning<concept vocab="DDI Sampling Procedure" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/SamplingProcedure/2.0.1?languageVersion=sv-2.0.1">Hela populationen/total räkning</concept></sampProc>
        <collMode xml:lang="en">Other<concept vocab="DDI Mode of Collection" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/ModeOfCollection/5.0.0?languageVersion=en-5.0.0">Other</concept></collMode>
        <collMode xml:lang="sv">Övrigt<concept vocab="DDI Mode of Collection" vocabURI="https://vocabularies.cessda.eu/v2/vocabularies/ModeOfCollection/5.0.0?languageVersion=sv-5.0.0">Övrigt</concept></collMode>
      </dataColl>
    </method>
    <dataAccs>
      <useStmt>
        <restrctn xml:lang="en">Access to data through SND. Data are freely accessible.</restrctn>
        <restrctn xml:lang="sv">Åtkomst till data via SND. Data är fritt tillgängliga.</restrctn>
        <conditions elementVersion="info:eu-repo-Access-Terms vocabulary">openAccess</conditions>
      </useStmt>
    </dataAccs>
    <othrStdyMat>
      <relPubl>
        <citation>
          <titlStmt>
            <titl xml:lang="sv">Dahlgren, P. M. (2021). Svenskar eller utrikesfödda i medierna? – att identifiera födelseland från
namn. I L. Truedson &amp; J. Lundqvist (Red.), Vitt eller brett? – vilka får ta plats i medier och på
redaktioner. Stockholm: Institutet för mediestudier.</titl>
            <parTitl xml:lang="en">Dahlgren, P. M. (2021). Svenskar eller utrikesfödda i medierna? – att identifiera födelseland från
namn. I L. Truedson &amp; J. Lundqvist (Red.), Vitt eller brett? – vilka får ta plats i medier och på
redaktioner. Stockholm: Institutet för mediestudier.</parTitl>
            <IDNo agency="ISBN">978-91-987098-0-3</IDNo>
          </titlStmt>
          <distStmt>
            <distDate date="2021">2021</distDate>
          </distStmt>
        </citation>
      </relPubl>
      <relPubl>
        <citation>
          <titlStmt>
            <titl xml:lang="sv">Dahlgren, P. M. (2021). Medieinnehåll och mediekonsumtion under coronapandemin: Datoriserade
metoder för insamling och analys av stora mängder text- och mediedata. Göteborg: Institutionen
för journalistik, medier och kommunikation (JMG), Göteborgs universitet.</titl>
            <parTitl xml:lang="en">Dahlgren, P. M. (2021). Medieinnehåll och mediekonsumtion under coronapandemin: Datoriserade
metoder för insamling och analys av stora mängder text- och mediedata. Göteborg: Institutionen
för journalistik, medier och kommunikation (JMG), Göteborgs universitet.</parTitl>
            <IDNo agency="ISSN">1101-4679</IDNo>
          </titlStmt>
          <distStmt>
            <distDate date="2021">2021</distDate>
          </distStmt>
        </citation>
      </relPubl>
    </othrStdyMat>
  </stdyDscr>
</codeBook>