<ddi:DDIInstance xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ddi:instance:3_3 http://ddialliance.org/Specification/DDI-Lifecycle/3.3/XMLSchema/instance.xsd" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:ddi="ddi:instance:3_3" xmlns:r="ddi:reusable:3_3" xmlns:s="ddi:studyunit:3_3" xmlns:d="ddi:datacollection:3_3" xmlns:a="ddi:archive:3_3" xmlns:c="ddi:conceptualcomponent:3_3" xmlns:cm="ddi:comparative:3_3" xmlns:g="ddi:group:3_3" xmlns:l="ddi:logicalproduct:3_3" xmlns:p="ddi:physicaldataproduct:3_3" xmlns:pi="ddi:physicalinstance:3_3" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xhtml="http://www.w3.org/1999/xhtml" xmlns:xml="http://www.w3.org/XML/1998/namespace" isMaintainable="true" scopeOfUniqueness="Agency">
  <r:URN>urn:ddi:se.researchdata:doi-10-23695-w5ww-x964:0</r:URN>
  <r:Agency>SND</r:Agency>
  <r:ID>doi-10-23695-w5ww-x964</r:ID>
  <r:Version>0</r:Version>
  <g:ResourcePackage>
    <r:URN>urn:ddi:se.researchdata:doi-10-23695-w5ww-x964.ResourcePackage:2.0</r:URN>
    <r:OtherMaterialScheme>
      <r:URN>urn:ddi:se.researchdata:doi-10-23695-w5ww-x964.OtherMaterialScheme:2.0</r:URN>
    </r:OtherMaterialScheme>
    <a:OrganizationScheme>
      <r:URN>urn:ddi:se.researchdata:doi-10-23695-w5ww-x964.OrganizationScheme-0:2.0</r:URN>
      <a:Organization>
        <r:URN>urn:ddi:se.researchdata:doi-10-23695-w5ww-x964.Organization-0:2.0</r:URN>
        <a:OrganizationIdentification>
          <a:OrganizationName>
            <r:String xml:lang="en">Språkbanken Text</r:String>
          </a:OrganizationName>
        </a:OrganizationIdentification>
      </a:Organization>
    </a:OrganizationScheme>
  </g:ResourcePackage>
  <s:StudyUnit>
    <r:URN>urn:ddi:se.researchdata:doi-10-23695-w5ww-x964.StudyUnit:2.0</r:URN>
    <r:UserID typeOfUserID="datasetIdentifier">doi-10-23695-w5ww-x964</r:UserID>
    <r:Citation>
      <r:Title>
        <r:String xml:lang="sv">Swesaurus</r:String>
        <r:String xml:lang="en">Swesaurus</r:String>
      </r:Title>
      <r:Creator>
        <r:CreatorReference>
          <r:URN>urn:ddi:se.researchdata:doi-10-23695-w5ww-x964.Individual-0:2.0</r:URN>
          <r:TypeOfObject>Individual</r:TypeOfObject>
        </r:CreatorReference>
      </r:Creator>
      <r:Publisher>
        <r:PublisherName>
          <r:String xml:lang="sv">Göteborgs universitet</r:String>
          <r:String xml:lang="en">University of Gothenburg</r:String>
        </r:PublisherName>
      </r:Publisher>
      <r:Publisher>
        <r:PublisherName>
          <r:String xml:lang="sv">Göteborgs universitet</r:String>
          <r:String xml:lang="en">University of Gothenburg</r:String>
        </r:PublisherName>
      </r:Publisher>
      <r:PublicationDate>
        <r:SimpleDate>2024-01-01</r:SimpleDate>
      </r:PublicationDate>
      <r:InternationalIdentifier>
        <r:IdentifierContent>10.23695/W5WW-X964</r:IdentifierContent>
        <r:ManagingAgency controlledVocabularyAgencyName="DOI">DOI</r:ManagingAgency>
      </r:InternationalIdentifier>
    </r:Citation>
    <r:Abstract>
      <r:Content xml:lang="sv">Introduktion

Swesaurus är ett fritt svenskt ordnät, som bygger på så kallade luddiga synonymmängder (även luddiga synsets). Det återanvänder information om lexikalisk-semantiska relationer från flera fritt tillgängliga lexikala resurser för svenska.

SALDO - en lexikalisk-semantisk resurs för svenska
Synlex - en svensk synonymlista med grad av synonymi
SDB (Semantisk databas) - en lexikalisk databas
Wiktionary - ett webbaserat projekt för att kollaborativt skapa ett fritt lexikon
Princeton Core WordNet

Vi har utforskat två sätt att koppla synonympar från Synlex till ord i SALDO med olika betydelser. Det första handlar om det transitiva höljet. En transitiv relation betyder att om något gäller för A och B, och för B och C, så gäller det också för A och C. Om vi till exempel veta att en elefant är större än en kamel och att en kamel är större än en katt, så vet vi också automatiskt att en elefant är större än en katt. Synonymi är en transitiv relation, vilket innebär att om vi vet att A är synonymt med B och B med C, så följer med automatik att A är synonymt med C. Med andra ord, synonymparet A-C kan härledas från de explicit angivna synonymparen A-B och B-C. Den mängd objekt man får om man räknar ut alla transitivitetsrelationer för något eller några av orden kallas det transitiva höljet. I vårt fall kan man tänka på det transitiva höljet som en ’kedja’ av ordbetydelser där varje länk i kedjan ges av ett synonympar. Till exempel, det transitiva höljet för synonymparen barn-parvel, parvel-pys och pys-knatte är synonymmängden {barn, parvel, pys, knatte}. Resultatet blir en uppsättning av rimliga synonymmängder, men också en återstående ensam synonymmängd med flera tusen ordbetydelser. Vi minskade den största synonymmängden genom kravet att en synonymmängd endast får bestå av ord i samma ordklass, men antalet ordbetydelser i den kan fortfarande räknas i tusental.

Den andra metoden för att koppla ihop synonympar är klickar. En klick är en mängd ord där alla är synonymer till varandra. Beräkningen av klickar gav inga onormalt stora synonymmängder, men däremot andra problem. Till exempel förekommer ordbetydelser ibland i fler än en synonymmängd, vilket strider mot vad man i ordnätssammanhang brukar mena med ordbetydelse. Vi experimenterar med olika sätt att hantera detta. Vi kan till exempel utgå från de klickar som har en eller flera gemensamma ordbetydelser och härleda saknade synonympar som, om de existerade, skulle förena klickarna till en klick. Detta ger par av god kvalitet.

Resurser
Ladda ner utvecklingsversionen av Swesaurus</r:Content>
      <r:Content xml:lang="en">Introduction

Swesaurus is a free Swedish wordnet, based on so called fuzzy synonym sets (or fuzzy synsets). It reuses information about lexical-semantic relations in a number of freely available lexical resources for Swedish.

SALDO - a lexico-semantic resource for Swedish
Synlex - a Swedish list of synonyms with level of synonymy
SDB (Semantic database) - a lexical database
Wiktionary - a web-based project for collaboratively creating a free lexicon
Princeton Core WordNet

We have explored two approaches for mapping Synlex synonym pairs to different word senses in SALDO. The first deals with transitive closure. If a relation between A and B, and between B and C, is also tru for A and C, then this is a transitive relation. For example, if we know that an elephant is larger than a camel, and that a camel is larger than a cat, then we automatically know that an elephant is larger than a cat. Synonymy is a transitive relation, which means that if we know that A is synonymous with B, and B with C, then automatically A is synonymous with C. In other words, the synonymy pair A-C can be deducted from the explicitly stated synonymy pairs A-B and B-C. The transitive closure is the number of objects we get from calculating all transitivity relations for one or several of the words. We can think of the transitive closure as a 'chain' of word senses, where each link of the chain is given by a synonymy pair. The result was a set of reasonable synonyms, but also one set of synonyms with several thousand senses. We reduced this large set by requiring that a synset only can contain words of the same part-of-speech, but there are still thousands of senses.

The second method to connect synonymy pairs is cliques. A clique is a set of words which are all synonyms to eachother. Calculating cliques did not result in abnormally large synsets, but rendered other problems. For example, some word senses appear in more than one synset, which violates the wordnet meaning of a word sense. We experiment with different ways of dealing with this. For example, starting with the cliques which have common word senses, we can deduce missing synonym pairs which, if they existed, would collapse the cliques into one clique. This results in pairs of good quality.

Download the development version of Swesaurus</r:Content>
    </r:Abstract>
    <r:Coverage>
      <r:TopicalCoverage>
        <r:URN>urn:ddi:se.researchdata:doi-10-23695-w5ww-x964.TopicalCoverage:2.0</r:URN>
        <r:Subject xml:lang="en" controlledVocabularyID="10208" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Natural Language Processing</r:Subject>
        <r:Subject xml:lang="sv" controlledVocabularyID="10208" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Språkbehandling och datorlingvistik</r:Subject>
      </r:TopicalCoverage>
      <r:SpatialCoverage />
    </r:Coverage>
    <a:Archive>
      <r:URN>urn:ddi:se.researchdata:doi-10-23695-w5ww-x964.Archive:2.0</r:URN>
      <a:ArchiveSpecific>
        <a:Item>
          <a:Access>
            <r:URN>urn:ddi:se.researchdata:doi-10-23695-w5ww-x964.Archive-ArchiveSpecificType-AccessType:2.0</r:URN>
            <a:TypeOfAccess controlledVocabularyName="info:eu-repo-Access-Terms vocabulary"></a:TypeOfAccess>
          </a:Access>
          <a:DataFileQuantity>0</a:DataFileQuantity>
        </a:Item>
      </a:ArchiveSpecific>
    </a:Archive>
  </s:StudyUnit>
</ddi:DDIInstance>