Gå direkt till huvudinnehåll

Vägledning med exempel

Det är svårt att ge helt allmängiltiga riktlinjer för personuppgiftshantering i forskningsdata. Ofta är det omständigheterna i det enskilda fallet som avgör hur data bör hanteras, och i många situationer krävs därför en individuell bedömning. Syftet med den här sidan är därför att ge en överblick kring några grundläggande begrepp men också ge konkreta exempel på vad som betraktas som personuppgifter och hur de kan hanteras i olika scenarier.

Exemplen bygger på SND:s verkliga erfarenheter av att stödja forskare i frågor som rör personuppgiftshantering. Vägledningen ska ses som ett stöd i bedömningen men ersätter inte lokala bestämmelser vid ditt lärosäte.

Innehåll på sidan:

Risken för återidentifiering – grundproblemet

En aspekt som alltid behöver beaktas är risken för återidentifiering eller bakvägsidentifiering. Bakvägsidentifiering av personuppgifter innebär att en individ kan identifieras genom att kombinera olika typer av data med så kallade indirekta identifierare – exempelvis yrke, ålder eller geografisk plats. Detta gör det möjligt att genom kompletterande uppgifter koppla en person till information i en datamängd, även när direkt identifierande uppgifter som namn eller personnummer saknas. Blir en individ möjlig att identifiera genom kompletterande uppgifter utgör datamängden som helhet personuppgifter. Även om risken för bakvägsidentifiering inte är hög behöver ändå en bedömning av risken göras och i bästa fall dokumenteras.

Hur mycket information behövs för att bakvägsidentifiera en individ?

Ett känt exempel på hur bakvägsidentifiering kan tillämpas kommer från USA, där forskaren Latanya Sweeney i sin artikel k-ANONYMITY: A Model for Protecting PrivacyÖppnas i en ny tabb visar hur 85 procent av den amerikanska befolkningen kan direktidentifieras enbart med hjälp av postnummer, kön och födelsedatum.

För att minska risken kan uppgifter ibland bearbetas, exempelvis genom omkodning och gruppering av variabler, såsom att dela in ålder i intervall eller använda mer övergripande geografiska nivåer. Även om datamängden då fortfarande kan innehålla känsliga personuppgifter kan risken för bakvägsidentifiering minska. Du kan läsa mer om hur du minskar risken för bakvägsidentifiering under Metoder i handbok för data med personuppgifter.

Skyddsåtgärder – hur data lagras och hanteras

När forskningsdata innehåller personuppgifter behöver lämpliga skyddsåtgärder vidtas. Skyddsåtgärdernas karaktär varierar beroende på hur skyddsvärda uppgifterna är och vilka integritetsrisker innehållet medför för enskilda individer.

  • Känsliga personuppgifter kräver omfattande skyddsåtgärder, såsom rutiner för sekretessprövning innan utlämnande, säker lagring med åtkomstkontroll samt att endast metadata delas öppet medan själva datafiler tillhandahålls vid förfrågan.
  • Uppgifter med minimalt behov av skydd kan i vissa fall delas öppet, det kan då vara tillräckligt att informera användare om att uppgifterna kan omfattas av GDPR och att de själva ansvarar för att identifiera en rättslig grund och ändamål enligt GDPR i sin fortsatta behandling.

Skyddsåtgärder kan alltså vara både tekniska (säker lagring, behörighetsstyrning) och administrativa (sekretessprövning, avtal med användare). De flesta lärosäten erbjuder idag någon form av säker lagring för data med personuppgifter.

Bedömning av integritetsrisker och lämpliga skyddsåtgärder behöver göras från fall till fall och i sitt specifika sammanhang. Vänd dig till ditt lokala forskningsdatastöd, dataskyddsombud eller universitetsjurist för stöd i att klassificera hur skyddsvärda data är samt hur ett eventuellt utlämningsförfarande ska genomföras.

Transparens, information och dokumentation

En grundläggande åtgärd inom integritetsskydd är att lämna information till forskningspersonerna om att deras personuppgifter behandlas och på vilket sätt. Utan information kan individer inte utöva sina rättigheter enligt GDPR. För forskare är information till forskningspersoner också central ur ett etiskt perspektiv. Informerade samtycken är bara giltiga om forskningspersonerna har fått korrekt och begriplig information i förväg. Det är därför klokt att redan i insamlingsskedet förklara att forskningsdata kan komma att bevaras och tillgängliggöras i repositorier för att möjliggöra ny forskning eller granskning. Informationen kan exempelvis formuleras på följande sätt:

Personuppgifter kan komma att lämnas vidare till exempelvis forskare, tidskrifter och andra behöriga för efterföljande forskning eller kontroll av forskning inom eller utanför landet. Varje utlämnande av data kommer då att prövas individuellt för att säkerställa att utlämnandet sker i enlighet med gällande lagstiftning och att personuppgifterna kan hanteras säkert.

Det är också viktigt att dokumentera de överväganden och åtgärder du gör för att skydda forskningsdata. Dokumentationen hjälper dig att komma ihåg hur data hanterats och kan vara avgörande vid en granskning eller incident. Dokumentationen kan ske i en datahanteringsplan eller ännu mer detaljerat genom en konsekvensbedömning. Om du är osäker på vad som gäller, kontakta ditt lokala forskningsdatastöd.

Mallar för samtycke och dokumentation

På Etikprövningsmyndighetens hemsida hittar du stödmallar Öppnas i en ny tabbför hur informerade samtycken till deltagare i forskningsstudier kan se ut. Integritetsskyddsmyndigheten tillhandahåller också en mall för bedömning av behovet av konsekvensbedömningÖppnas i en ny tabb, vilket fungerar som en bedömningsmall och dokumentation.

Exempel på personuppgifter och hur de kan hanteras

Indirekta personuppgifter

Även forskningsdata som inte innehåller direkta personuppgifter kan utgöra indirekta personuppgifter, om det är möjligt att härleda informationen till en enskild individ med hjälp av kompletterande uppgifter. För att bedöma vilken nivå av skyddsåtgärd som är nödvändig behöver man avgöra vilka integritetsrisker som kan uppstå när data hanteras eller delas. Innehåller data information som kan anses som mycket känslig, är det lämpligt att de hanteras med hjälp av säker lagring och endast delas efter sekretessprövning. Det kan till exempel gälla indirekt hälsoinformation, politiska åsikter eller information om ett stort antal individer. Är integritetsriskerna låga, kan det räcka att informera användaren om att datasetet kan innehålla personuppgifter och att den som laddar ner det behöver tillämpa GDPR.

Scenario

En forskargrupp genomför en väljarundersökning med hjälp av frågeformulär som skickas ut via vanlig post. Originaldata innehåller direkt identifierande information i form av namn, personnummer och gatuadress. Denna information raderas permanent efter insamlingens slut men uppgifter om kön, ålder, yrke och bostadsort finns kvar.

I datamängden återfinns endast en svarande man från en kommun med cirka 2500 invånare, som är 65 år och arbetar som präst. Personen går enkelt att identifiera med kompletterande uppgifter såsom SCB:s statistik eller andra söktjänster på internet och känsliga uppgifter kring partisympatier kan sammankopplas med individen.

Datamängden betraktas därför innehålla känsliga personuppgifter och måste hanteras med skyddsåtgärder och du kan som forskare inte dela dessa öppet.

Pseudonymiserade personuppgifter med kodnyckel

Tillsammans med en kodnyckel kan ett pseudonymiserat dataset peka ut en individ och informationen bedöms därför vara personuppgifter. Sådana data ska alltid placeras bakom beställningsvägg och hanteras med restriktioner.

Scenario

En forskargrupp genomför en panelstudie kring livsstil och politiska åsikter där data insamlas genom webbenkäter. Originaldata med direkt identifierande information såsom e-postadresser hanteras med hjälp av säker lagring.

Ett separat dataset utan e-postadresser med ett matchande löpnummer skapas. Indirekta identifierare såsom ålder, utbildning, inkomst och boendeort kodas om till såpass breda kategorier att det inte är möjligt att särskilja en enskild individ i datamängden.

Den nya datamängden kommer dock ändå att betraktas som personuppgifter eftersom löpnumret utgör en kodnyckel som kan koppla det nya datasetet till originaldata som i sin tur innehåller direkt identifierande information.

Det betyder att en enskild individ potentiellt kan pekas ut med hjälp av kodnyckeln och datamängderna bedöms tillsammans utgöra personuppgifter. Sådana data ska alltid placeras bakom beställningsvägg och hanteras med restriktioner.

Pseudonymiserade personuppgifter utan kodnyckel

Även om kodnyckeln eller andra kompletterande uppgifter finns åtskilda från datasetet hos en separat organisation, betraktas datasetet fortfarande som indirekta personuppgifter likt ovan i exemplet med pseudonymiserade uppgifter med kodnyckel. Sådana data ska som regel placeras bakom beställningsvägg och kan inte delas öppet.

Scenario

En forskare genomför en intervjustudie med patienter som genomgått cellgiftsbehandling. Data innehåller personnummer som ersätts med ett löpnummer i en ny separat datamängd som endast innehåller information om forskningspersonernas hälsa och vårdupplevelse.

Originaldata med personnummer och matchande löpnummer lagras separat hos den region där intervjupersonen behandlats och är inte direkt åtkomlig för forskarna.

Även om det nya datasetet inte innehåller direkta personuppgifter kommer det att betraktas som känsliga personuppgifter. Det spelar i det här fallet ingen roll att forskaren själv inte har tillgång till kodnyckeln eftersom det kan finnas en risk för att individer kan identifieras om datasetet kombineras med kodnyckeln, även om risken är låg. Sådana data ska som regel placeras bakom beställningsvägg och kan inte delas öppet.


Olika varianter av samma dataset

Det är inte ovanligt att man som forskare skapar olika varianter av samma dataset för olika ändamål. Om någon av datamängderna innehåller direkta eller indirekta personuppgifter gäller i regel samma principer som i exemplen med och utan kodnyckel, även om nya varianter inte innehåller ett direkt matchande löpnummer. Anledningen är att det i många fall går att återidentifiera enskilda observationer genom att jämföra olika varianter av samma dataset.

Även om bakgrundsvariabler har tagits bort eller omkodats kan kombinationen av kvarvarande svar vara tillräckligt unik för att kopplas till motsvarande individ i den ursprungliga, icke omarbetade datamängden. På så sätt kan enskilda personer identifieras trots att materialet saknar löpnummer eller uppenbar kodnyckel.

Scenario

En forskare har ett dataset som saknar direkt identifierande information men som innehåller indirekta identifierare. Forskaren vill dela data öppet och skapar en ny variant där ålder och inkomst kodas om till breda kategorier som gör det omöjligt att identifiera enskilda individer. Utöver det raderas uppgifter som boendeort och inkomst helt.

Datamängden innehåller fortfarande ett tiotal flervalsfrågor kring politiska åsikter med fem svarsalternativ vardera. Kombinationerna av dessa svar kan skapa unika mönster som gör det möjligt att, exempelvis med hjälp av ett statistikprogram, matcha den bearbetade versionen mot det ursprungliga datasetet. På så sätt går det att identifiera vilken rad i originalmaterialet som motsvarar en viss respondent.

Detta innebär att detaljer från den bearbetade versionen kan kopplas tillbaka till det obearbetade materialet, vilket medför risk för återidentifiering. Data betraktas därför fortfarande som personuppgifter. Därför bör data inte publiceras öppet utan istället göras tillgängliga bakom en beställningsvägg och hanteras med tydliga restriktioner.


Geografiska koordinater

Geografiska koordinater förekommer i många typer av forskningsdata. Om koordinater kan kopplas till en fastighet, som i sin tur kan vara kopplad till en individ (fastighetsägaren), kan informationen utgöra indirekta personuppgifter.

För att identifiera vilken individ som är knuten till en fastighet behöver man ofta begära ut uppgifter från Lantmäteriet. Den informationen innebär i många fall inget stort intrång i den personliga integriteten, till exempel uppgifter om fågelrutter över en fastighet. Men annan information kan vara känsligare, till exempel förekomst av skadedjur, eftersom det kan påverka fastighetens värde och därmed en individs ekonomi.

Scenario 1

Ett forskningsprojekt samlar in data om växtsjukdomar. Koordinaterna pekar ut enskilda fastigheter och visar var skadedjur hittats. Även om inga namn finns i datasetet kan det indirekt kopplas till en enskild fastighetsägare och betraktas därmed som personuppgifter. Eftersom informationen kan ha ekonomiska konsekvenser för fastighetsägaren ska data hanteras med särskilda restriktioner.

Scenario 2

Ett forskningsprojekt samlar in data om pollinering genom humlors rörelsemönster inom ett visst område. Området omfattar flera fastigheter och i vissa fall kan enskilda fastighetsägare identifieras genom Lantmäteriets databaser. Därmed klassas materialet som personuppgifter. Uppgifterna innebär dock inte någon risk för integritetsmässig, fysisk eller ekonomisk påverkan för de berörda individerna, dvs. humlors flygrutter påverkar i praktiken inte fastighetsägarna på ett sätt som kan anses påverka individerna negativt. Mot denna bakgrund anses det möjligt att dela data öppet, under förutsättning att forskaren informerar den som laddar ned uppgifterna om att materialet kan innehålla personuppgifter.

Referenser, källhänvisningar och bibliografiska studier

Författare som genomför bibliografiska studier och hänvisar till andra källor, till exempel böcker eller artiklar, måste referera till källor på ett tydligt och korrekt sätt. Det innebär att forskningsdata kan innehålla namn på författare eller andra upphovsmän, vilket räknas som personuppgifter. I bibliometriska studier – där data om publiceringar, citeringar och författarskap analyseras – är denna typ av personuppgifter själva grunden för forskningen.

Att ange referenser är både en skyldighet enligt upphovsrättslagen och en del av god forskningssed. Författarlistor, citeringar och källhänvisningar är dessutom information som till sin natur är avsedd att spridas och som är nödvändig för vetenskaplig publicering.

Mot denna bakgrund bedöms att spridning av författarlistor, citeringar och källhänvisningar kan omfattas av undantaget för akademiskt skapande enligt art 85.2 GDPR. Behandlingen av personuppgifter som detta medför anses därför av SND inte omfattas av GDPR:s fullständiga krav.

Scenario

En forskargrupp vill undersöka publiceringsmönster inom miljövetenskap i Norden under de senaste 20 åren. För att göra detta samlar de in data från internationella databaser över vetenskapliga artiklar. I materialet ingår uppgifter om artiklarnas titlar, författarlistor, citeringar och tidskrifter där artiklarna publicerats.

Eftersom forskningen bygger på att analysera vem som publicerat vad, när och var, innehåller materialet personuppgifter i form av författarnamn. Dessa uppgifter är dock en nödvändig och integrerad del av forskningen och utan dem skulle det inte gå att studera exempelvis samarbetsmönster mellan forskare, citeringsfrekvens eller forskningsfältets utveckling över tid. Data omfattas därmed av undantaget akademiskt skapande och kan spridas och delas öppet.

Redan publicerade personuppgifter

Det förekommer att forskningsdata innehåller redan publicerade personuppgifter, till exempel om en forskare samlat in data från sociala medier. Att uppgifterna publicerats tidigare ändrar inte deras karaktär. Det är fortfarande personuppgifter som kan härledas till en individ.

Det kan vara svårt att bedöma intrånget och ofta behöver man göra en bedömning från fall till fall. Bedömningen kan skilja sig åt beroende på hur mycket information man använder i sin forskning och hur stora möjligheterna att återkopppla informationen till en individ är. Personer som skrivit på sociala medier kanske inte förväntat sig att deras uppgifter används för forskningsändamål, även om de själva har delat informationen. Bedömningen påverkas också av om uppgifterna hämtats från slutna forum på internet eller från öppet tillgängliga källor. I många fall bör sådana data endast göras tillgängliga på förfrågan och efter bedömning.

Scenario 1

En forskare studerar högerpopulistiska åsiktsströmningar på Twitter/X över tid och samlar in data i form av offentliga uttalanden från användare på plattformen. Även om inläggen är offentliga innehåller de personuppgifter som kan härledas till enskilda användare, exempelvis genom kontonamn, profilbilder eller citat.

Forskningsnyttan är hög, men behandlingen av data innebär också en risk för de individer vars åsikter och uttalanden analyseras. Det kan exempelvis handla om att deras politiska ståndpunkter kartläggs, vilket är en känslig personuppgift enligt GDPR. Därför krävs en noggrann bedömning av riskerna, där hänsyn tas till både forskningens syfte och individens integritet.

I detta fall kan det vara lämpligt att data endast delas på begäran och efter särskild prövning, samt att materialet avidentifieras eller aggregeras i möjligaste mån innan det görs tillgängligt för andra forskare.

Scenario 2

En doktorand vill analysera inlägg från en sluten Facebookgrupp om förlossningserfarenheter. Medlemmarna publicerade själva uppgifterna men uppfattade forumet som privat. Därför måste uppgifterna fortfarande betraktas som känsliga personuppgifter. Datasetet bör bara delas på förfrågan och efter en sekretessprövning, inte publiceras öppet.

Personuppgifter om tredje man i forskningsdata

Ibland förekommer uppgifter om en annan person än den forskningen riktat sig till, till exempel när en deltagare berättar om en politiker, en chef eller en anhörig. Även sådana uppgifter är personuppgifter och omfattas av GDPR.

Det kan vara stor skillnad i integritetsrisker beroende på sammanhanget. Uppgifter om offentliga personer i neutrala sammanhang kan betraktas som ofarliga och kan delas öppet. Uppgifter om privatpersoner i känsliga sammanhang kan däremot innebära intrång och bör hanteras med restriktioner.

Scenario 1

I en arbetsmiljöstudie berättar en deltagare om sin chef och nämner chefens namn i samband med negativa omdömen. Chefen har inte deltagit i forskningen men kan ändå identifieras då arbetsplatsen är relativt liten. Det innebär att uppgiften är en personuppgift som måste hanteras med skyddsåtgärder och kan inte delas öppet.

Scenario 2

I en attitydundersökning får ett större antal personer svara på frågor om vad de tycker om olika svenska politiker. Datainsamlingen genomfördes av ett privat opinionsföretag som har raderat alla direkta identifierare innan data lämnades över till forskargruppen. De enda data forskarna har tillgång till är själva attityderna samt kön och ålder på respondenterna. Utifrån den aspekten är data att betrakta som anonyma.

Däremot förekommer namn på de politiker som respondenterna yttrat sig om och därmed är data att betrakta som personuppgifter. Uppgifterna anses dock inte utgöra särskilt stort integritetsintrång för de enskilda då de är offentliga personer.

Detta innebär att datamängden kan delas öppet, under förutsättning att det tydliggörs att den innehåller personuppgifter. Skyddsåtgärder som att säkerställa korrekt kontext och att undvika missbruk av materialet kan vara lämpliga, men den övergripande risknivån bedöms som låg.

Uppgifter om lagöverträdelser

Information om straffrättsliga överträdelser är inte en känslig personuppgift enligt GDPR, men anses ändå extra skyddsvärd och regleras särskilt i artikel 10.

Exempel på sådana uppgifter är målnummer i domar eller information om roller i rättsprocesser (t.ex. ”klaganden”). Även uppgifter från enkäter som rör brottslig handling, till exempel bruk av droger, omfattas. Sådan information bör alltid hanteras restriktivt.

Scenario

En forskargrupp genomför en enkät om hälsa och livsstil där deltagarna får frågor om cannabisanvändning. Ett jakande svar innebär att en person indirekt erkänner ett brott. Detta gör uppgifterna särskilt skyddsvärda. Datasetet ska hanteras med skyddsåtgärder och får därför inte delas öppet utan endast göras tillgängligt efter sekretessprövning och bakom beställningsvägg.