<ddi:DDIInstance xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ddi:instance:3_3 http://ddialliance.org/Specification/DDI-Lifecycle/3.3/XMLSchema/instance.xsd" xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:ddi="ddi:instance:3_3" xmlns:r="ddi:reusable:3_3" xmlns:s="ddi:studyunit:3_3" xmlns:d="ddi:datacollection:3_3" xmlns:a="ddi:archive:3_3" xmlns:c="ddi:conceptualcomponent:3_3" xmlns:cm="ddi:comparative:3_3" xmlns:g="ddi:group:3_3" xmlns:l="ddi:logicalproduct:3_3" xmlns:p="ddi:physicaldataproduct:3_3" xmlns:pi="ddi:physicalinstance:3_3" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xhtml="http://www.w3.org/1999/xhtml" xmlns:xml="http://www.w3.org/XML/1998/namespace" isMaintainable="true" scopeOfUniqueness="Agency">
  <r:URN>urn:ddi:se.researchdata:2023-246:1</r:URN>
  <r:Agency>SND</r:Agency>
  <r:ID>2023-246</r:ID>
  <r:Version>1</r:Version>
  <g:ResourcePackage>
    <r:URN>urn:ddi:se.researchdata:2023-246.ResourcePackage:2.0</r:URN>
    <r:OtherMaterialScheme>
      <r:URN>urn:ddi:se.researchdata:2023-246.OtherMaterialScheme:2.0</r:URN>
    </r:OtherMaterialScheme>
    <a:OrganizationScheme>
      <r:URN>urn:ddi:se.researchdata:2023-246.OrganizationScheme-0:2.0</r:URN>
      <a:Individual>
        <r:URN>urn:ddi:se.researchdata:2023-246.Individual-0:2.0</r:URN>
        <r:UserAttributePair>
          <r:AttributeKey>affiliation</r:AttributeKey>
          <r:AttributeValue>Department of Computer Science, Electrical and Space Engineering, Luleå University of Technology</r:AttributeValue>
        </r:UserAttributePair>
        <a:IndividualIdentification>
          <a:IndividualName>
            <a:FirstGiven>Karl</a:FirstGiven>
            <a:LastFamily>Löwenmark</a:LastFamily>
            <a:FullName>
              <r:String>Karl Löwenmark</r:String>
            </a:FullName>
          </a:IndividualName>
          <a:ResearcherID>
            <a:TypeOfID>ORCID</a:TypeOfID>
            <a:ResearcherIdentification>0000-0002-0188-9337</a:ResearcherIdentification>
          </a:ResearcherID>
        </a:IndividualIdentification>
      </a:Individual>
      <a:Individual>
        <r:URN>urn:ddi:se.researchdata:2023-246.Individual-0:2.0</r:URN>
        <r:UserAttributePair>
          <r:AttributeKey>affiliation</r:AttributeKey>
          <r:AttributeValue>Department of Computer Science, Electrical and Space Engineering, Luleå University of Technology</r:AttributeValue>
        </r:UserAttributePair>
        <a:IndividualIdentification>
          <a:IndividualName>
            <a:FirstGiven>Fredrik</a:FirstGiven>
            <a:LastFamily>Sandin</a:LastFamily>
            <a:FullName>
              <r:String>Fredrik Sandin</r:String>
            </a:FullName>
          </a:IndividualName>
          <a:ResearcherID>
            <a:TypeOfID>ORCID</a:TypeOfID>
            <a:ResearcherIdentification>0000-0001-5662-825X</a:ResearcherIdentification>
          </a:ResearcherID>
        </a:IndividualIdentification>
      </a:Individual>
      <a:Individual>
        <r:URN>urn:ddi:se.researchdata:2023-246.Individual-0:2.0</r:URN>
        <r:UserAttributePair>
          <r:AttributeKey>affiliation</r:AttributeKey>
          <r:AttributeValue>Department of Computer Science, Electrical and Space Engineering, Luleå University of Technology</r:AttributeValue>
        </r:UserAttributePair>
        <a:IndividualIdentification>
          <a:IndividualName>
            <a:FirstGiven>Marcus</a:FirstGiven>
            <a:LastFamily>Liwicki</a:LastFamily>
            <a:FullName>
              <r:String>Marcus Liwicki</r:String>
            </a:FullName>
          </a:IndividualName>
          <a:ResearcherID>
            <a:TypeOfID>ORCID</a:TypeOfID>
            <a:ResearcherIdentification>0000-0003-4029-6574</a:ResearcherIdentification>
          </a:ResearcherID>
        </a:IndividualIdentification>
      </a:Individual>
      <a:Individual>
        <r:URN>urn:ddi:se.researchdata:2023-246.Individual-0:2.0</r:URN>
        <r:UserAttributePair>
          <r:AttributeKey>affiliation</r:AttributeKey>
          <r:AttributeValue>SKF (Sweden)</r:AttributeValue>
        </r:UserAttributePair>
        <a:IndividualIdentification>
          <a:IndividualName>
            <a:FirstGiven>Stephan</a:FirstGiven>
            <a:LastFamily>Schnabel</a:LastFamily>
            <a:FullName>
              <r:String>Stephan Schnabel</r:String>
            </a:FullName>
          </a:IndividualName>
          <a:ResearcherID>
            <a:TypeOfID>ORCID</a:TypeOfID>
            <a:ResearcherIdentification>0000-0001-7459-3484</a:ResearcherIdentification>
          </a:ResearcherID>
        </a:IndividualIdentification>
      </a:Individual>
    </a:OrganizationScheme>
  </g:ResourcePackage>
  <s:StudyUnit>
    <r:URN>urn:ddi:se.researchdata:2023-246.StudyUnit:2.0</r:URN>
    <r:UserID typeOfUserID="datasetIdentifier">2023-246</r:UserID>
    <r:UserID typeOfUserID="principalRegistrationNumber">2019-02533</r:UserID>
    <r:Citation>
      <r:Title>
        <r:String xml:lang="sv">Dataset med tillståndsövervakningsvibrationsdata annoterat med tekniskt språk, från pappersmaskinsindustri i norra Sverige</r:String>
        <r:String xml:lang="en">Dataset with condition monitoring vibration data annotated with technical language, from paper machine industries in northern Sweden</r:String>
      </r:Title>
      <r:Creator>
        <r:CreatorReference>
          <r:URN>urn:ddi:se.researchdata:2023-246.Individual-0:2.0</r:URN>
          <r:TypeOfObject>Individual</r:TypeOfObject>
        </r:CreatorReference>
      </r:Creator>
      <r:Publisher>
        <r:PublisherName>
          <r:String xml:lang="sv">Luleå tekniska universitet</r:String>
          <r:String xml:lang="en">Luleå University of Technology</r:String>
        </r:PublisherName>
      </r:Publisher>
      <r:Publisher>
        <r:PublisherName>
          <r:String xml:lang="sv">Luleå tekniska universitet</r:String>
          <r:String xml:lang="en">Luleå University of Technology</r:String>
        </r:PublisherName>
      </r:Publisher>
      <r:PublicationDate>
        <r:SimpleDate>2023-11-29</r:SimpleDate>
      </r:PublicationDate>
      <r:InternationalIdentifier>
        <r:IdentifierContent>10.5878/z34p-qj52</r:IdentifierContent>
        <r:ManagingAgency controlledVocabularyAgencyName="DOI">DOI</r:ManagingAgency>
      </r:InternationalIdentifier>
    </r:Citation>
    <r:Abstract>
      <r:Content xml:lang="sv">Industridataset med labels är bland de mest värdefulla tillgångarna att tillgå inom prognostik- och tillståndsövervaknings-forskning. Att tillverka labellade dataset är både svårt och dyrt, vilket medför att allmänt tillgängliga industridataset är sällsynta, särskilt de med labels. Studier har dock visat att industriannoteringar kan användas för att träna AI-modeller direkt på industridata ( https://doi.org/10.36001/ijphm.2022.v13i2.3137 , https://doi.org/10.36001/phmconf.2023.v15i1.3507 ), men trots att många industridataset innehåller de nödvändiga texterna så är få, om ens några, sådana dataset allmänt tillgängliga.
Därför ger vi ut ett dataset innehållandes annoterade signaldata från två stora (80x10x10m) pappersmaskiner från ett pappersbruk i norra Sverige. Datan består av 21 090 par av signaler och annoteringar från ett års produktion. Annoteringarna är skrivna på svenska av experter på plats, och signalerna består huvudsakligen av accelerometervibrationsmätningar från de två maskinerna.
Datasetet består av ett års annoterade vibrationsensormätningar från två pappersmaskiner, strukturerade som en Pandas dataframe och serialiserade som en pickle-fil (.pkl) samt en JSON-fil (.json). Den första kolumnen (’id’) är ID per sample; den andra kolumnen (’Spectra’) är fast-Fourier-transformerade och envelope-transformerade vibrationssignaler; den tredje kolumnen (’Notes’) är de tillhörande annoteringarna, kartlagda så att varje annotering är kopplad till alla signaler från tio dagar före annoteringsdatumet upp till annoteringsdatumet; och slutligen den fjärde kolumnen (’Embeddings’) är förberäknade text-representationer från Swedish SentenceBERT. Varje rad motsvarar ett vibrationsmätningsprov, även om det inte finns någon åtskillnad i denna data mellan vilken sensor och maskindel varje mätning kommer från.</r:Content>
      <r:Content xml:lang="en">Labelled industry datasets are one of the most valuable assets in prognostics and health management (PHM) research. However, creating labelled industry datasets is both difficult and expensive, making publicly available industry datasets rare at best, in particular labelled datasets.
Recent studies have showcased that industry annotations can be used to train artificial intelligence models directly on industry data ( https://doi.org/10.36001/ijphm.2022.v13i2.3137 , https://doi.org/10.36001/phmconf.2023.v15i1.3507 ), but while many industry datasets also contain text descriptions or logbooks in the form of annotations and maintenance work orders, few, if any, are publicly available.
Therefore, we release a dataset consisting with annotated signal data from two large (80mx10mx10m) paper machines, from a Kraftliner production company in northern Sweden. The data consists of 21 090 pairs of signals and annotations from one year of production. The annotations are written in Swedish, by on-site Swedish experts, and the signals consist primarily of accelerometer vibration measurements from the two machines.
The dataset is structured as a Pandas dataframe and serialized as a pickle (.pkl) file and a JSON (.json) file. The first column (‘id’) is the ID of the samples; the second column (‘Spectra’) are the fast Fourier transform and envelope-transformed vibration signals; the third column (‘Notes’) are the associated annotations, mapped so that each annotation is associated with all signals from ten days before the annotation date, up to the annotation date; and finally the fourth column (‘Embeddings’) are pre-computed embeddings using Swedish SentenceBERT. Each row corresponds to a vibration measurement sample, though there is no distinction in this data between which sensor or machine part each measurement is from.</r:Content>
    </r:Abstract>
    <r:Coverage>
      <r:TopicalCoverage>
        <r:URN>urn:ddi:se.researchdata:2023-246.TopicalCoverage:2.0</r:URN>
        <r:Subject xml:lang="en" controlledVocabularyID="10106" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Probability Theory and Statistics</r:Subject>
        <r:Subject xml:lang="sv" controlledVocabularyID="10106" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Sannolikhetsteori och statistik</r:Subject>
        <r:Subject xml:lang="en" controlledVocabularyID="102" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Computer and Information Sciences</r:Subject>
        <r:Subject xml:lang="sv" controlledVocabularyID="102" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Data- och informationsvetenskap (datateknik)</r:Subject>
        <r:Subject xml:lang="en" controlledVocabularyID="10208" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Natural Language Processing</r:Subject>
        <r:Subject xml:lang="sv" controlledVocabularyID="10208" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Språkbehandling och datorlingvistik</r:Subject>
        <r:Subject xml:lang="en" controlledVocabularyID="10299" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Other Computer and Information Science</r:Subject>
        <r:Subject xml:lang="sv" controlledVocabularyID="10299" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Annan data- och informationsvetenskap</r:Subject>
        <r:Subject xml:lang="en" controlledVocabularyID="20205" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Signal Processing</r:Subject>
        <r:Subject xml:lang="sv" controlledVocabularyID="20205" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Signalbehandling</r:Subject>
        <r:Subject xml:lang="en" controlledVocabularyID="20399" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Other Mechanical Engineering</r:Subject>
        <r:Subject xml:lang="sv" controlledVocabularyID="20399" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Annan maskinteknik</r:Subject>
        <r:Subject xml:lang="en" controlledVocabularyID="20503" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Paper, Pulp and Fiber Technology</r:Subject>
        <r:Subject xml:lang="sv" controlledVocabularyID="20503" controlledVocabularyName="Standard för svensk indelning av forskningsämnen 2025">Pappers-, massa- och fiberteknik</r:Subject>
        <r:Keyword xml:lang="en" controlledVocabularyID="6026" controlledVocabularyName="GEMET">paper industry</r:Keyword>
        <r:Keyword xml:lang="sv" controlledVocabularyID="6026" controlledVocabularyName="GEMET">pappersindustri</r:Keyword>
        <r:Keyword xml:lang="en" controlledVocabularyID="p15423" controlledVocabularyName="YSO">condition monitoring</r:Keyword>
        <r:Keyword xml:lang="sv" controlledVocabularyID="p15423" controlledVocabularyName="YSO">övervakning av skick</r:Keyword>
        <r:Keyword xml:lang="en" controlledVocabularyID="p6071" controlledVocabularyName="YSO">language technology</r:Keyword>
        <r:Keyword xml:lang="sv" controlledVocabularyID="p6071" controlledVocabularyName="YSO">språkteknologi</r:Keyword>
        <r:Keyword xml:lang="en" controlledVocabularyID="p12266" controlledVocabularyName="YSO">signal processing</r:Keyword>
        <r:Keyword xml:lang="sv" controlledVocabularyID="p12266" controlledVocabularyName="YSO">signalbehandling</r:Keyword>
        <r:Keyword xml:lang="en" controlledVocabularyID="43098" controlledVocabularyName="NASA Thesaurus">fault detection</r:Keyword>
        <r:Keyword xml:lang="en" controlledVocabularyID="47942" controlledVocabularyName="NASA Thesaurus">natural language processing</r:Keyword>
      </r:TopicalCoverage>
      <r:SpatialCoverage>
        <r:URN>urn:ddi:se.researchdata:2023-246.SpatialCoverage:2.0</r:URN>
        <r:CountryCode>SE</r:CountryCode>
      </r:SpatialCoverage>
    </r:Coverage>
    <d:DataCollection>
      <r:URN>urn:ddi:se.researchdata:2023-246.DataCollection:2.0</r:URN>
      <d:CollectionEvent>
        <r:URN>urn:ddi:se.researchdata:2023-246.CollectionEvent:2.0</r:URN>
        <d:DataCollectorOrganizationReference>
          <r:URN>urn:ddi:se.researchdata:2023-246.Organization-0:2.0</r:URN>
          <d:ID />
          <d:Version />
          <d:TypeOfObject>Organization</d:TypeOfObject>
        </d:DataCollectorOrganizationReference>
        <d:DataCollectionDate />
        <d:ModeOfCollection>
          <r:URN>urn:ddi:se.researchdata:2023-246.CollectionEvent-0-ModeOfCollectionType:2.0</r:URN>
          <d:TypeOfModeOfCollection>Recording</d:TypeOfModeOfCollection>
          <r:Description>
            <r:Content xml:lang="en">Recording</r:Content>
            <r:Content xml:lang="sv">Inspelning</r:Content>
          </r:Description>
        </d:ModeOfCollection>
      </d:CollectionEvent>
    </d:DataCollection>
    <a:Archive>
      <r:URN>urn:ddi:se.researchdata:2023-246.Archive:2.0</r:URN>
      <a:ArchiveSpecific>
        <a:Item>
          <a:Access>
            <r:URN>urn:ddi:se.researchdata:2023-246.Archive-ArchiveSpecificType-AccessType:2.0</r:URN>
            <a:TypeOfAccess controlledVocabularyName="info:eu-repo-Access-Terms vocabulary">openAccess</a:TypeOfAccess>
          </a:Access>
          <a:DataFileQuantity>4</a:DataFileQuantity>
        </a:Item>
      </a:ArchiveSpecific>
    </a:Archive>
  </s:StudyUnit>
</ddi:DDIInstance>