<ddi:DDIInstance xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ddi:instance:3_3 http://ddialliance.org/Specification/DDI-Lifecycle/3.3/XMLSchema/instance.xsd" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:ddi="ddi:instance:3_3" xmlns:r="ddi:reusable:3_3" xmlns:s="ddi:studyunit:3_3" xmlns:d="ddi:datacollection:3_3" xmlns:a="ddi:archive:3_3" xmlns:c="ddi:conceptualcomponent:3_3" xmlns:cm="ddi:comparative:3_3" xmlns:g="ddi:group:3_3" xmlns:l="ddi:logicalproduct:3_3" xmlns:p="ddi:physicaldataproduct:3_3" xmlns:pi="ddi:physicalinstance:3_3" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xhtml="http://www.w3.org/1999/xhtml" xmlns:xml="http://www.w3.org/XML/1998/namespace" isMaintainable="true" scopeOfUniqueness="Agency">
  <r:URN>urn:ddi:se.researchdata:doi-10-23695-3wmv-1z09:0</r:URN>
  <r:Agency>SND</r:Agency>
  <r:ID>doi-10-23695-3wmv-1z09</r:ID>
  <r:Version>0</r:Version>
  <g:ResourcePackage>
    <r:URN>urn:ddi:se.researchdata:doi-10-23695-3wmv-1z09.ResourcePackage:2.0</r:URN>
    <r:OtherMaterialScheme>
      <r:URN>urn:ddi:se.researchdata:doi-10-23695-3wmv-1z09.OtherMaterialScheme:2.0</r:URN>
    </r:OtherMaterialScheme>
    <a:OrganizationScheme>
      <r:URN>urn:ddi:se.researchdata:doi-10-23695-3wmv-1z09.OrganizationScheme-0:2.0</r:URN>
      <a:Individual>
        <r:URN>urn:ddi:se.researchdata:doi-10-23695-3wmv-1z09.Individual-0:2.0</r:URN>
        <a:IndividualIdentification>
          <a:IndividualName>
            <a:FullName>
              <r:String>Rødven-Eide, Stian</r:String>
            </a:FullName>
          </a:IndividualName>
        </a:IndividualIdentification>
      </a:Individual>
    </a:OrganizationScheme>
  </g:ResourcePackage>
  <s:StudyUnit>
    <r:URN>urn:ddi:se.researchdata:doi-10-23695-3wmv-1z09.StudyUnit:2.0</r:URN>
    <r:UserID typeOfUserID="datasetIdentifier">doi-10-23695-3wmv-1z09</r:UserID>
    <r:Citation>
      <r:Title>
        <r:String xml:lang="sv">The Swedish Culturomics Gigaword Corpus</r:String>
        <r:String xml:lang="en">The Swedish Culturomics Gigaword Corpus</r:String>
      </r:Title>
      <r:Creator>
        <r:CreatorReference>
          <r:URN>urn:ddi:se.researchdata:doi-10-23695-3wmv-1z09.Individual-0:2.0</r:URN>
          <r:TypeOfObject>Individual</r:TypeOfObject>
        </r:CreatorReference>
      </r:Creator>
      <r:Publisher>
        <r:PublisherName>
          <r:String xml:lang="sv">Göteborgs universitet</r:String>
          <r:String xml:lang="en">University of Gothenburg</r:String>
        </r:PublisherName>
      </r:Publisher>
      <r:Publisher>
        <r:PublisherName>
          <r:String xml:lang="sv">Göteborgs universitet</r:String>
          <r:String xml:lang="en">University of Gothenburg</r:String>
        </r:PublisherName>
      </r:Publisher>
      <r:PublicationDate>
        <r:SimpleDate>2024-01-01</r:SimpleDate>
      </r:PublicationDate>
      <r:InternationalIdentifier>
        <r:IdentifierContent>10.23695/3WMV-1Z09</r:IdentifierContent>
        <r:ManagingAgency controlledVocabularyAgencyName="DOI">DOI</r:ManagingAgency>
      </r:InternationalIdentifier>
    </r:Citation>
    <r:Abstract>
      <r:Content xml:lang="sv">En miljard ord ur svenska korpusar från 1950 och framåt.
Vänligen använd följande artikel som referens för datasetet:
Stian Rødven Eide, Nina Tahmasebi, Lars Borin. 2016. The Swedish Culturomics Gigaword Corpus: A One Billion Word Swedish Reference Dataset for NLP

Kod för att extrahera data från korpusen, samt
 användningsinstruktioner, kan laddas ner från
 https://svn.spraakbanken.gu.se/sb-arkiv/tools/gigaword/

Sentences per year for each genre

fiction
government
news
science
socialmedia

1950
-
420 413
-
-
-

1960
-
424 920
-
-
-

1965
-
-
53 624
-
-

1970
-
459 867
-
-
-

1976
-
-
89 175
-
-

1977
499 030
-
-
-
-

1980
-
534 194
-
-
-

1981
307 597
-
-
-
-

1987
97 398
-
364 226
-
-

1990
-
551 988
-
-
-

1991
330 127
-
-
-
-

1992
-
-
-
44 538
-

1994
-
391 882
1 538 748
-
-

1995
-
-
514 797
-
-

1996
-
-
449 148
118 542
-

1997
-
-
980 230
125 096
-

1998
-
-
804 178
121 895
1 638

1999
194 699
-
-
113 568
40 099

2000
-
-
-
109 289
12 945

2001
-
-
1 393 257
115 012
20 006

2002
-
41 066
2 610 740
110 830
191 234

2003
-
-
2 095 700
96 778
16 382

2004
-
-
2 094 251
103 881
487 447

2005
-
-
3 013 787
85 023
985 094

2006
-
50 684
2 634 386
-
408 425

2007
-
-
2 530 808
523 102
1 638 311

2008
-
-
2 607 657
-
754 801

2009
-
-
2 795 855
-
605 194

2010
-
-
2 635 687
-
790 148

2011
-
-
2 973 928
-
957 017

2012
-
-
2 681 277
673 820
1 589 999

2013
-
-
2 501 426
-
594 982

2014
-
-
-
-
590 146

2015
-
-
-
12 293 254
187 253</r:Content>
      <r:Content xml:lang="en">One billion Swedish words from 1950 and onwards.
Please reference the dataset using the following reference:
Stian Rødven Eide, Nina Tahmasebi, Lars Borin. 2016. The Swedish Culturomics Gigaword Corpus: A One Billion Word Swedish Reference Dataset for NLP

Code to extract data from the corpus, as well as usage instructions,
 can be downloaded from https://svn.spraakbanken.gu.se/sb-arkiv/tools/gigaword/

Sentences per year for each genre

fiction
government
news
science
socialmedia

1950
-
420 413
-
-
-

1960
-
424 920
-
-
-

1965
-
-
53 624
-
-

1970
-
459 867
-
-
-

1976
-
-
89 175
-
-

1977
499 030
-
-
-
-

1980
-
534 194
-
-
-

1981
307 597
-
-
-
-

1987
97 398
-
364 226
-
-

1990
-
551 988
-
-
-

1991
330 127
-
-
-
-

1992
-
-
-
44 538
-

1994
-
391 882
1 538 748
-
-

1995
-
-
514 797
-
-

1996
-
-
449 148
118 542
-

1997
-
-
980 230
125 096
-

1998
-
-
804 178
121 895
1 638

1999
194 699
-
-
113 568
40 099

2000
-
-
-
109 289
12 945

2001
-
-
1 393 257
115 012
20 006

2002
-
41 066
2 610 740
110 830
191 234

2003
-
-
2 095 700
96 778
16 382

2004
-
-
2 094 251
103 881
487 447

2005
-
-
3 013 787
85 023
985 094

2006
-
50 684
2 634 386
-
408 425

2007
-
-
2 530 808
523 102
1 638 311

2008
-
-
2 607 657
-
754 801

2009
-
-
2 795 855
-
605 194

2010
-
-
2 635 687
-
790 148

2011
-
-
2 973 928
-
957 017

2012
-
-
2 681 277
673 820
1 589 999

2013
-
-
2 501 426
-
594 982

2014
-
-
-
-
590 146

2015
-
-
-
12 293 254
187 253</r:Content>
    </r:Abstract>
    <r:Coverage>
      <r:TopicalCoverage>
        <r:URN>urn:ddi:se.researchdata:doi-10-23695-3wmv-1z09.TopicalCoverage:2.0</r:URN>
        <r:Subject xml:lang="en" controlledVocabularyID="10208" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Natural Language Processing</r:Subject>
        <r:Subject xml:lang="sv" controlledVocabularyID="10208" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Språkbehandling och datorlingvistik</r:Subject>
      </r:TopicalCoverage>
      <r:SpatialCoverage />
    </r:Coverage>
    <a:Archive>
      <r:URN>urn:ddi:se.researchdata:doi-10-23695-3wmv-1z09.Archive:2.0</r:URN>
      <a:ArchiveSpecific>
        <a:Item>
          <a:Access>
            <r:URN>urn:ddi:se.researchdata:doi-10-23695-3wmv-1z09.Archive-ArchiveSpecificType-AccessType:2.0</r:URN>
            <a:TypeOfAccess controlledVocabularyName="info:eu-repo-Access-Terms vocabulary"></a:TypeOfAccess>
          </a:Access>
          <a:DataFileQuantity>0</a:DataFileQuantity>
        </a:Item>
      </a:ArchiveSpecific>
    </a:Archive>
  </s:StudyUnit>
</ddi:DDIInstance>