Svensk trädbank
https://doi.org/10.23695/51HR-EA34
En svensk trädbank med återanvändning av existerande resurser
Den svenska trädbanken är resultatet av ett arbete som har utförts av forskare vid universiteten i
Uppsala (Datorlingvistik, Institutionen för lingvistik och filologi) och Växjö
(Språkteknologigruppen vid
Matematiska och systemtekniska institutionen). Trädbanken är resultatet av en harmonisering
av den lingvistiska informationen i två befintliga
svenska språkresurser:
Talbanken, en korpus med svenskt skriftspråk och transkriberat
talspråk från 1970-talet, som är försedd med manuellt utförda syntaktiska analyser
enligt en traditionell nordistisk modell (en slags utvidgad fältanalys à la
Diderichsen)
SUC (Stockholm Umeå Corpus), en morfosyntaktiskt analyserad
(försedd med ordklassetiketter och grundformer på alla korpusens ord) balanserad
korpus över publicerat svenskt skriftspråk från 1990-talet
I korthet har harmoniseringen gått till så att Talbanken försetts med SUC:s
ordklassetiketter i en halvautomatisk process, och både Talbanken och SUC har
försetts med en frasstrukturversion av Talbankens syntaktiska annotation.
Den senare processen har varit helautomatisk, vilket innebär att man kan
förvänta sig felaktigheter i den syntaktiska annotationen, särskilt i SUC-korpusen.
En preliminär utvärdering av annotationen presenterad vid
en workshop i samband med
SLTC 2008 visar att den syntaktiska annotationen ändå är till mycket god hjälp vid
korpuslingvistiska undersökningar.
Format, licens och distribution
Format
Den svenska trädbanken distribueras i ett format som kallas TIGER-XML, så att den
ska kunna användas med det fritt tillgängliga sökverktyget TIGERSearch, som kan
laddas ner
från Institut
für Maschinelle Sprachverarbeitung vid universitetet i Stuttgart.
Licens
Trädbanksdelen - d.v.s. de nytillagda syntaktiska annotationerna - av
den svenska trädbanken är helt fri, med en öppen källkodslicens.
Talbanken är fritt tillgänglig för forskning och undervisning. Den kan laddas ned här
SUC kräver att varje användare tecknar en individuell licens med
Institutionen för lingvistik vid Stockholms universitet. Från och med den 1/12 2008
är licensieringen
av SUC delegerad till Språkbanken vid Göteborgs universitet. SUC-licensavtalet kan laddas
ner i pdf-format här. Läs mer om SUC2 och SUC3 här
För att erhålla SUC (och därmed den svenska trädbanken) behöver du skriva ut och skriva under
licensavtalet och sedan skicka det till
SUC-licens
Språkbanken
Institutionen för svenska, flerspråkighet och språkteknologi
Göteborgs universitet
Box 200
405 30 Göteborg
Därefter återkommer vi per epost med nerladdningsinstruktioner.
Distribution
Den svenska trädbanken distribueras av Språkbanken. Se instruktioner i föregående
avsnitt eller kontakta oss för mer information genom att eposta sb-info@svenska.gu.seÖppnas i en ny tabb.
Den som redan har skrivit
på en SUC-licens får direkt nedladdningsadress och lösenord från oss. Övriga behöver först
skriva under ett licensavtal för SUC (se ovan).
Referenser
Om du vill citera Svensk trädbank i en artikel rekommenderar vi att du använder följande referens:
Joakim Nivre, Beáta Megyesi, Sofia Gustafson-Capková, Filip Salomonsson and Bengt Dahlqvist (2008) Cultivating a Swedish Treebank
In: Nivre, Dahllöf, and Megyesi (Eds), Resourceful Language Technology: Festschrift in Honor of Anna Sågvall Hein, pp111–120.
Uppsala: Acta Universitatis Upsaliensis.
http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-8933Öppnas i en ny tabb
Ange gärna den här sidan på Språkbanken som nedladdningssajt.
Gå till källa för data
Öppnas i en ny tabbhttps://doi.org/10.23695/51HR-EA34
Citering och åtkomst
Citering och åtkomst
Administrativ information
Administrativ information
Ämnesområde och nyckelord
Ämnesområde och nyckelord
Metadata
Metadata

Göteborgs universitet