Engelsk-svensk-turkisk korpus

Beáta Megyesi; Éva Csató Johanson; Bengt Dahlqvist; Joakim Nivre; Eva Pettersson

Engelsk-svensk-turkisk korpus

We describe a syntactically annotated parallel corpus containing typologically partly different languages, namely English, Swedish andTurkish. The corpus consists of approximately 300 000 tokens in Swedish, 160 000 in Turkish and 150 000 in English, containing bothfiction and technical documents. We build the corpus by using the Uplug toolkit for automatic structural markup, such as tokenizationand sentence segmentation, as well as sentence and word alignment. In addition, we use basic language resource kits for the linguisticanalysis of the languages involved. The annotation is carried on various layers from morphological and part of speech analysis todependency structures. The tools used for linguistic annotation, e.g., HunPos tagger and MaltParser, are freely available data-drivenresources, trained on existing corpora and treebanks for each language. The parallel treebank is used in teaching and linguistic researchto study the relationship between the structurally different languages. In order to study the treebank, several tools have been developedfor the visualization of the annotation and alignment, allowing search for linguistic patterns. Syfte: Det övergripande syftet med projektet är att främja forskning och undervisning i turkiska. Mer specifikt syftar projektet till att bygga upp språkteknologiska basresurser för turkiska, svenska och engelska med kontrastiva frågeställningar i fokus.

Gå till källa för data

https://web.archive.org/web/20161227013750/http://stp.lingfil.uu.se/~bea/turkiska/index.html

Citering och åtkomst

Tillgänglighetsnivå:

Tillgång till data är begränsad

Skapare/primärforskare:

Beáta Megyesi - Uppsala universitet - Institutionen för lingvistik och filologi
Éva Csató Johanson - Uppsala universitet - Institutionen för lingvistik och filologi
Bengt Dahlqvist - Uppsala universitet - Institutionen för lingvistik och filologi
Joakim Nivre - Uppsala universitet - Institutionen för lingvistik och filologi
Eva Pettersson - Uppsala universitet - Institutionen för lingvistik och filologi

Forskningshuvudman:

Uppsala universitet
Öppnar nytt fönster hos ror.org.
ROR

Data innehåller personuppgifter:

Nej

Citering:

Språk:

Metod och utfall

Dataformat/datastruktur:

Administrativ information

Ansvarig institution/enhet:

Institutionen för lingvistik och filologi

PURL:

https://web.archive.org/web/20161227013750/http://stp.lingfil.uu.se/~bea/turkiska/index.html

Ämnesområde och nyckelord

Ämnesklassificering enligt CESSDA:

Språk och lingvistik

Standard för svensk indelning av forskningsämnen 2025:

Språk och litteratur

Nyckelord:

Relationer

Hemsida:

Länk till beskrivning och demo av korpusen.

Publikationer

Citering:

Csató Johansson, Megyesi, Beáta, Dahlqvist, Bengt, Csató, Éva Á. & Nivre, Joakim, 'The English-Swedish-Turkish Parallel Treebank', Proceedings of Language Resources and Evaluation (LREC 2010)., 2010

Länkar:

URN:
urn:nbn:se:uu:diva-121758

Kontakt

Beáta Megyesibeata.megyesi@lingfil.uu.se

Metadata

Version 1

Engelsk-svensk-turkisk korpus

Citering och åtkomst

Tillgänglighetsnivå:

Skapare/​primärforskare:

Forskningshuvudman:

Data innehåller personuppgifter:

Citering:

Språk:

Metod och utfall

Dataformat/​datastruktur:

Administrativ information

Ansvarig institution/​enhet:

PURL:

Ämnesområde och nyckelord

Ämnesklassificering enligt CESSDA:

Standard för svensk indelning av forskningsämnen 2025:

Nyckelord:

Relationer

Hemsida:

Publikationer

Citering:

Länkar:

URN:

Kontakt

Metadata

Skapare/primärforskare:

Dataformat/datastruktur:

Ansvarig institution/enhet: