<ddi:DDIInstance xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ddi:instance:3_3 http://ddialliance.org/Specification/DDI-Lifecycle/3.3/XMLSchema/instance.xsd" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:ddi="ddi:instance:3_3" xmlns:r="ddi:reusable:3_3" xmlns:s="ddi:studyunit:3_3" xmlns:d="ddi:datacollection:3_3" xmlns:a="ddi:archive:3_3" xmlns:c="ddi:conceptualcomponent:3_3" xmlns:cm="ddi:comparative:3_3" xmlns:g="ddi:group:3_3" xmlns:l="ddi:logicalproduct:3_3" xmlns:p="ddi:physicaldataproduct:3_3" xmlns:pi="ddi:physicalinstance:3_3" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xhtml="http://www.w3.org/1999/xhtml" xmlns:xml="http://www.w3.org/XML/1998/namespace" isMaintainable="true" scopeOfUniqueness="Agency">
  <r:URN>urn:ddi:se.researchdata:doi-10-23695-jnwp-q903:0</r:URN>
  <r:Agency>SND</r:Agency>
  <r:ID>doi-10-23695-jnwp-q903</r:ID>
  <r:Version>0</r:Version>
  <g:ResourcePackage>
    <r:URN>urn:ddi:se.researchdata:doi-10-23695-jnwp-q903.ResourcePackage:2.0</r:URN>
    <r:OtherMaterialScheme>
      <r:URN>urn:ddi:se.researchdata:doi-10-23695-jnwp-q903.OtherMaterialScheme:2.0</r:URN>
    </r:OtherMaterialScheme>
    <a:OrganizationScheme>
      <r:URN>urn:ddi:se.researchdata:doi-10-23695-jnwp-q903.OrganizationScheme-0:2.0</r:URN>
      <a:Organization>
        <r:URN>urn:ddi:se.researchdata:doi-10-23695-jnwp-q903.Organization-0:2.0</r:URN>
        <a:OrganizationIdentification>
          <a:OrganizationName>
            <r:String xml:lang="en">Språkbanken Text</r:String>
          </a:OrganizationName>
        </a:OrganizationIdentification>
      </a:Organization>
    </a:OrganizationScheme>
  </g:ResourcePackage>
  <s:StudyUnit>
    <r:URN>urn:ddi:se.researchdata:doi-10-23695-jnwp-q903.StudyUnit:2.0</r:URN>
    <r:UserID typeOfUserID="datasetIdentifier">doi-10-23695-jnwp-q903</r:UserID>
    <r:Citation>
      <r:Title>
        <r:String xml:lang="sv">SUC 2.0</r:String>
        <r:String xml:lang="en">SUC 2.0</r:String>
      </r:Title>
      <r:Creator>
        <r:CreatorReference>
          <r:URN>urn:ddi:se.researchdata:doi-10-23695-jnwp-q903.Individual-0:2.0</r:URN>
          <r:TypeOfObject>Individual</r:TypeOfObject>
        </r:CreatorReference>
      </r:Creator>
      <r:Publisher>
        <r:PublisherName>
          <r:String xml:lang="sv">Göteborgs universitet</r:String>
          <r:String xml:lang="en">University of Gothenburg</r:String>
        </r:PublisherName>
      </r:Publisher>
      <r:Publisher>
        <r:PublisherName>
          <r:String xml:lang="sv">Göteborgs universitet</r:String>
          <r:String xml:lang="en">University of Gothenburg</r:String>
        </r:PublisherName>
      </r:Publisher>
      <r:PublicationDate>
        <r:SimpleDate>2024-01-01</r:SimpleDate>
      </r:PublicationDate>
      <r:InternationalIdentifier>
        <r:IdentifierContent>10.23695/JNWP-Q903</r:IdentifierContent>
        <r:ManagingAgency controlledVocabularyAgencyName="DOI">DOI</r:ManagingAgency>
      </r:InternationalIdentifier>
    </r:Citation>
    <r:Abstract>
      <r:Content xml:lang="sv">Stockholm-Umeå-korpus (SUC) är en samling svenska texter från 1990-talet, med totalt en miljon ord.
Korpusen är balanserad, vilket betyder att den innehåller olika texttyper och texter med olika stilnivåer.
Texterna har märkts upp med ordklasstaggar, morfologisk analys och lemma (allt detta kan anses som referensdata), samt viss strukturell och funktionell information.

Version 1.0 utvecklades i samarbete mellan Gunnel Källgren vid Stockholms Universitet och Eva Ejerhed vid Umeå universitet och gjordes tillgängligt 1997 av institutionen för lingvistik på Stockholms universitet.

Version 2.0 gjordes tillgänglig 2006 av Sofia Gustafsson Capkova och Britt Hartmann vid institutionen för lingvistik på Stockholms universitet.
Den innehåller samma texter som SUC 1.0 men är utökad med viss annotering.
Dessutom innehåller SUC 2.0 två bonusmaterial.
TigerSUC är SUC 2.0 konverterad till TIGER-XML av Martin Volk.
StorSUC är ytterligare SUC-material om fyra miljoner ord.

Version 3.0 finns tillgänglig sedan 2012.
Den innehåller förbättrad annotering, samt oannoterade texter om sju miljoner ord.
(För TigerXML-versionen, Suc2c, Suc2d och DTD:erna hänvisar vi fortfarande till version 2.0.)

Ytterligare information om sammanställning och uppmärkning av SUC finns i
manualen för SUC 2.0 [PDF]

Språkbanken distribuerar SUC 2.0 och SUC 3.0 i två varianter:

SUC 2.0 och SUC 3.0:
fritt tillgänglig för forskning; kräver individuell licens

SUCX 2.0 och SUCX 3.0:
meningar i omkastad ordning; berikad med automatisk annotering; nedladdningsbar utan restriktioner

SUC 2.0

SUC är fritt tillgänglig för forskning, men kräver att varje användare tecknar en individuell licens med Institutionen för lingvistik vid Stockholms universitet.
Från och med den 1/12 2008 är licensieringen av SUC delegerad till Språkbanken Text vid Göteborgs universitet.

Bilaga 3 av SUC-licensen [PDF]
ska skrivas ut, skrivas under och sedan skickas antingen till sb-info@svenska.gu.se eller till

SUC-licens
Språkbanken Text
Institutionen för svenska, flerspråkighet och språkteknologi
Göteborgs universitet
Box 200
405 30 Göteborg

Efter att vi har mottagit och registrerat den underskrivna licensen, kommer vi att kontakta dig med en nedladdningslänk.</r:Content>
      <r:Content xml:lang="en">The Stockholm-Umeå Corpus (SUC) is a collection of Swedish texts from
the 1990's, consisting of one million words in total. The corpus is
balanced, meaning that it contains various text types and stylistic
levels. The texts are annotated with part-of-speech tags,
morphological analysis and lemma (all that can be considered gold standard data), as well as some structural and functional information.

Version 1.0 was developed in co-operation between Gunnel
Källgren at Stockholm University and Eva Ejerhed at Umeå University
and was made available in 1997 by the department of linguistics at
Stockholm University.

Version 2.0 was made available in 2006 by
Sofia Gustafsson Capkova and Britt Hartmann at the department of
linguistics at Stockholm University. It contains the same texts as SUC
1.0 but is extended with some annotation. Additionally, SUC 2.0
contains bonus materials. TigerSUC is SUC 2.0 converted to TIGER-XML
by Martin Volk. StorSUC is additional SUC material of four million
words.

Version 3.0 is available since 2012. It contains
improved annotations, and unannotated texts with seven million
words. (For the TigerXML-version, Suc2c, Suc2d, and the DTDs we still
refer to version 2.0.)

Additional information about the compilation and annotation of SUC can be found in the
SUC 2.0 manual [PDF].

Språkbanken distributes SUC 2.0 and SUC 3.0 in two variants:

SUC 2.0 and SUC 3.0:
freely available for research; require a signed licence

SUCX 2.0 and SUCX 3.0:
sentences in scrambled order; enriched with automatic annotations; downloadable without restrictions

SUC 2.0

SUC is freely available for research, but requires that every user
signs an individual license with the department of linguistics at
Stockholm University. Since December 1st 2008, SUC licensing is
delegated to Språkbanken Text at the University of Gothenburg.

Appendix 3 of the SUC license [PDF]
needs to be printed, signed, and sent sent either to sb-info@svenska.gu.se or to

SUC-licens
Språkbanken Text
Institutionen för svenska, flerspråkighet och språkteknologi
Göteborgs universitet
Box 200
405 30 Göteborg

When we have received and registered the signed license, we will contact you with a download link.</r:Content>
    </r:Abstract>
    <r:Coverage>
      <r:TopicalCoverage>
        <r:URN>urn:ddi:se.researchdata:doi-10-23695-jnwp-q903.TopicalCoverage:2.0</r:URN>
        <r:Subject xml:lang="en" controlledVocabularyID="10208" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Natural Language Processing</r:Subject>
        <r:Subject xml:lang="sv" controlledVocabularyID="10208" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Språkbehandling och datorlingvistik</r:Subject>
      </r:TopicalCoverage>
      <r:SpatialCoverage />
    </r:Coverage>
    <a:Archive>
      <r:URN>urn:ddi:se.researchdata:doi-10-23695-jnwp-q903.Archive:2.0</r:URN>
      <a:ArchiveSpecific>
        <a:Item>
          <a:Access>
            <r:URN>urn:ddi:se.researchdata:doi-10-23695-jnwp-q903.Archive-ArchiveSpecificType-AccessType:2.0</r:URN>
            <a:TypeOfAccess controlledVocabularyName="info:eu-repo-Access-Terms vocabulary"></a:TypeOfAccess>
          </a:Access>
          <a:DataFileQuantity>0</a:DataFileQuantity>
        </a:Item>
      </a:ArchiveSpecific>
    </a:Archive>
  </s:StudyUnit>
</ddi:DDIInstance>