SUC-romaner (StorSUC) SUC Novels (StorSUC) doi-10-23695-6bfj-ne40-0 https://doi.org/10.23695/6BFJ-NE40 Swedish National Data Service Svensk nationell datatjänst Landing page SUC-romaner (StorSUC) SUC Novels (StorSUC) doi-10-23695-6bfj-ne40-0 https://doi.org/10.23695/6BFJ-NE40 Språkbanken Text Swedish National Data Service Svensk nationell datatjänst Landing page STORSUC is a bonus material distributed with SUC2.0 (see below). The material is not formally included in SUC and does not adhere to the corpus format. It has not been annotated, but is only structured into paragraph-like segments. STORSUC is not balanced. The Stockholm-Umeå Corpus (SUC) is a collection of Swedish texts from the 1990's, consisting of one million words in total. The corpus is balanced, meaning that it contains various text types and stylistic levels. The texts are annotated with part-of-speech tags, morphological analysis and lemma (all that can be considered gold standard data), as well as some structural and functional information. Version 1.0 was developed in co-operation between Gunnel Källgren at Stockholm University and Eva Ejerhed at Umeå University and was made available in 1997 by the department of linguistics at Stockholm University. Version 2.0 was made available in 2006 by Sofia Gustafson-Capková and Britt Hartmann at the department of linguistics at Stockholm University. It contains the same texts as SUC 1.0 but is extended with some annotation. Additionally, SUC 2.0 contains bonus materials. TigerSUC is SUC 2.0 converted to TIGER-XML by Martin Volk. StorSUC is additional SUC material of four million words. Version 3.0 is available since 2012. It contains improved annotations, and unannotated texts with seven million words. (For the TigerXML-version, Suc2c, Suc2d, and the DTDs we still refer to version 2.0.) Additional information about the compilation and annotation of SUC can be found in the SUC 2.0 manual [PDF]. Språkbanken distributes SUC 2.0 and SUC 3.0 in two variants. The official corpus SUC is freely available for research, but requires that every user signs an individual license with the department of linguistics at Stockholm University. Since December 1st 2008, SUC licensing is delegated to Språkbanken Text at the University of Gothenburg. Appendix 3 of the SUC license [PDF] needs to be printed, signed, and sent to SUC-licens Språkbanken Institutionen för svenska, flerspråkighet och språkteknologi Göteborgs universitet Box 200 405 30 Göteborg When we have received and registered the signed license, we will contact you with a download link. Scrambled corpus with additional automatic annotation A second variant can be downloaded directly under the open licence CC BY-SA, below. The order of the sentences in this version has been scrambled, and extra annotation has been added automatically by Språkbankens processing pipeline. The corpus is distributed in Språnkbankens default XML format. The following annotation is taken from the official version: Part of speech (pos attributes of word elements) Morphology (msd attributes) Lemma (lemma attributes) Named entity (SUC 3.0 only; tags, not the tags) All other annotation, like the linking against Saldo, the dependency parses, and alternative named entity annotation ( tags), was created automatically by Sparv. It is this variant of SUC that can be explored in Korp STORSUC är ett bonusmaterial som distribueras med SUC2.0 (se nedan). Materialet är inte formellt en del av SUC och följer inte korpusformatet. Det har inte annoterats, utan bara delats in i paragraf-liknande enheter. STORSUC är inte balanserat. Stockholm-Umeå-korpus (SUC) är en samling svenska texter från 1990-talet, med totalt en miljon ord. Korpusen är balanserad, vilket betyder att den innehåller olika texttyper och texter med olika stilnivåer. Texterna har märkts upp med ordklasstaggar, morfologisk analys och lemma (allt detta kan anses som referensdata), samt viss strukturell och funktionell information. Version 1.0 utvecklades i samarbete mellan Gunnel Källgren vid Stockholms Universitet och Eva Ejerhed vid Umeå universitet och gjordes tillgängligt 1997 av institutionen för lingvistik på Stockholms universitet. Version 2.0 gjordes tillgänglig 2006 av Sofia Gustafson-Capková och Britt Hartmann vid institutionen för lingvistik på Stockholms universitet. Den innehåller samma texter som SUC 1.0 men är utökad med viss annotering. Dessutom innehåller SUC 2.0 två bonusmaterial. TigerSUC är SUC 2.0 konverterad till TIGER-XML av Martin Volk. StorSUC är ytterligare SUC-material om fyra miljoner ord. Version 3.0 finns tillgänglig sedan 2012. Den innehåller förbättrad annotering, samt oannoterade texter om sju miljoner ord. (För TigerXML-versionen, Suc2c, Suc2d och DTD:erna hänvisar vi fortfarande till version 2.0.) Ytterligare information om sammanställning och uppmärkning av SUC finns i manualen för SUC 2.0 [PDF] Språkbanken distribuerar SUC 2.0 och SUC 3.0 i två varianter. Officiella korpusen SUC är fritt tillgänglig för forskning, men kräver att varje användare tecknar en individuell licens med Institutionen för lingvistik vid Stockholms universitet. Från och med den 1/12 2008 är licensieringen av SUC delegerad till Språkbanken Text vid Göteborgs universitet. Bilaga 3 av SUC-licensen [PDF] ska skrivas ut, skrivas under och sedan skickas till SUC-licens Språkbanken Text Institutionen för svenska, flerspråkighet och språkteknologi Göteborgs universitet Box 200 405 30 Göteborg Efter att vi har mottagit och registrerat den underskrivna licensen, kommer vi att kontakta dig med en nedladdningslänk. Meningsomkastad, automatiskt vidare berikad korpus En andra variant går att ladda ner direkt under den öppna CC BY-SA-licensen här nedanför. Denna variant är meningsomkastad, och dessutom har extra uppmärkning lagts till automatiskt av Språkbankens textanalysverktyg. Korpusen distribueras i Språkbankens standard-XML-format. Följande annoteringar är som i den officiella versionen: ordklass (pos-attribut på ordelement) morfologiska särdrag (msd-attribut) grundform (lemma-attribut) namngivna entiteter (endast SUC 3.0; -taggar, inte -taggarna) All annan uppmärkning, till exempel länkningen mot SALDO, dependensparsning och en alternativ uppmärkning med namngivna entiteter (-taggar), har skapats automatiskt av Sparv. Det är också denna variant av SUC som går att utforska i Korp. Access to data through an external actor. Åtkomst till data via extern aktör.