<codeBook xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xsi:schemaLocation="ddi:codebook:2_5 http://www.ddialliance.org/Specification/DDI-Codebook/2.5/XMLSchema/codebook.xsd" xmlns="ddi:codebook:2_5">
  <docDscr>
    <citation>
      <titlStmt>
        <titl xml:lang="sv">MultiGEC</titl>
        <parTitl xml:lang="en">MultiGEC</parTitl>
        <IDNo agency="SND">doi-10-23695-h9f5-8143-0</IDNo>
        <IDNo agency="DOI">https://doi.org/10.23695/H9F5-8143</IDNo>
      </titlStmt>
      <prodStmt>
        <producer xml:lang="en" abbr="SND">Swedish National Data Service</producer>
        <producer xml:lang="sv" abbr="SND">Svensk nationell datatjänst</producer>
      </prodStmt>
      <holdings URI="https://doi.org/10.23695/H9F5-8143">Landing page</holdings>
    </citation>
  </docDscr>
  <stdyDscr>
    <citation>
      <titlStmt>
        <titl xml:lang="sv">MultiGEC</titl>
        <parTitl xml:lang="en">MultiGEC</parTitl>
        <IDNo agency="SND">doi-10-23695-h9f5-8143-0</IDNo>
        <IDNo agency="DOI">https://doi.org/10.23695/H9F5-8143</IDNo>
      </titlStmt>
      <rspStmt />
      <prodStmt />
      <distStmt>
        <distrbtr xml:lang="en" abbr="SND" URI="https://snd.se">Swedish National Data Service</distrbtr>
        <distrbtr xml:lang="sv" abbr="SND" URI="https://snd.se">Svensk nationell datatjänst</distrbtr>
        <distDate xml:lang="en" date="2025-01-01" />
      </distStmt>
      <verStmt>
        <version elementVersion="0" elementVersionDate="2025-01-01" />
      </verStmt>
      <holdings URI="https://doi.org/10.23695/H9F5-8143">Landing page</holdings>
    </citation>
    <stdyInfo>
      <subject />
      <abstract xml:lang="en" contentType="abstract">Dataset description
MultiGEC is a dataset for Multilingual Grammatical Error Correction in 12 European languages (Czech, English, Estonian, German, Greek, Icelandic, Italian, Latvian, Russian, Slovene, Swedish and Ukrainian) compiled by the CompSLA working group and over 20 external data providers in the context of MultiGEC-2025, the first text-level GEC shared task.
The MultiGEC dataset is divided into 17 subcorpora covering different languages, domains and correction styles, summarized below. More detailed information about each subcorpus is available as machine-readable metadata, whose format is described .</abstract>
      <abstract xml:lang="sv" contentType="abstract">Beskrivning
MultiGEC är en datamängd för automatisk korrigering av grammatiska fel -- på engelska Grammatical Error Correction (GEC) -- på 12 olika europeiska språk (tjeckiska, engelska, estniska, tyska, grekiska, isländska, italienska, lettiska, ryska, slovenska, svenska och ukrainska) som sammanställts av CompSLA-arbetsgruppen och över 20 externa dataleverantörer inom ramen för MultiGEC-2025, den första shared task för GEC på textnivå.
MultiGEC är indelat i 17 delkorpusar som täcker olika språk, domäner och korrigeringsstilar, vilka sammanfattas nedan. Mer detaljerad information om varje subkorpus finns tillgänglig som maskinläsbara metadata, vars format beskrivs här .</abstract>
      <sumDscr />
    </stdyInfo>
    <method>
      <dataColl />
    </method>
    <dataAccs>
      <useStmt>
        <restrctn xml:lang="en">Access to data through an external actor. </restrctn>
        <restrctn xml:lang="sv">Åtkomst till data via extern aktör. </restrctn>
      </useStmt>
    </dataAccs>
    <othrStdyMat />
  </stdyDscr>
</codeBook>