MultiGEC
https://doi.org/10.23695/H9F5-8143
Beskrivning
MultiGEC är en datamängd för automatisk korrigering av grammatiska fel -- på engelska Grammatical Error Correction (GEC) -- på 12 olika europeiska språk (tjeckiska, engelska, estniska, tyska, grekiska, isländska, italienska, lettiska, ryska, slovenska, svenska och ukrainska) som sammanställts av CompSLA-arbetsgruppen och över 20 externa dataleverantörer inom ramen för MultiGEC-2025, den första shared task för GEC på textnivå.
MultiGEC är indelat i 17 delkorpusar som täcker olika språk, domäner och korrigeringsstilar, vilka sammanfattas nedan. Mer detaljerad information om varje subkorpus finns tillgänglig som maskinläsbara metadata, vars format beskrivs här .
Gå till källa för data
Öppnas i en ny tabbhttps://doi.org/10.23695/H9F5-8143
Citering och åtkomst
Citering och åtkomst
Skapare/primärforskare:
- Masciolini, Arianna
- Caines, Andrew
- De Clercq, Orphée
- Kruijsbergen, Joni
- Kurfali, Murathan
- Muñoz Sánchez, Ricardo
- Volodina, Elena
- Östling, Robert
- Allkivi-Metsoja, Kais
- Arhar Holdt, Špela
- Auzina, Ilze
- Darģis, Roberts
- Drakonaki, Elena
- Frey, Jennifer-Carmen
- Glišić, Isidora
- Kikilintza, Pinelopi
- Nicolas, Lionel
- Romanyshyn, Mariana
- Rosen, Alexandr
- Rozovskaya, Alla
- Suluste, Kristjan
- Syvokon, Oleksiy
- Tantos, Alexandros
- Touriki, Despoina-Ourania
- Tsiotskas, Konstantinos
- Tsourilla, Eleni
- Varsamopoulos, Vassilis
- Wisniewski, Katrin
- Žagar, Aleš
- Zesch, Torsten
Forskningshuvudman:
Citering:
Administrativ information
Administrativ information
Ämnesområde och nyckelord
Ämnesområde och nyckelord
Relationer
Relationer
Metadata
Metadata
