Vägledning med exempel

Det är svårt att ge allmängiltiga riktlinjer för personuppgiftshantering i forskningsdata. Ofta är det omständigheterna i det enskilda fallet som avgör hur data bör hanteras, och i många situationer krävs därför en individuell bedömning. Syftet med den här sidan är därför att ge en överblick kring några grundläggande begrepp men också ge konkreta exempel på vad som betraktas som personuppgifter och hur de kan hanteras i olika scenarier.

Exemplen bygger på SND:s verkliga erfarenheter av att stödja forskare i frågor som rör personuppgiftshantering. Vägledningen ska ses som ett stöd i bedömningen men ersätter inte lokala bestämmelser vid ditt lärosäte.

Risken för återidentifiering – grundproblemet
Skyddsåtgärder – hur data lagras och hanteras
Transparens, information och dokumentation
Exempel på personuppgifter och hur de kan hanteras

Risken för återidentifiering – grundproblemet

En aspekt som alltid behöver beaktas är risken för återidentifiering eller bakvägsidentifiering. Bakvägsidentifiering av personuppgifter innebär att en individ kan identifieras genom att kombinera olika typer av data med så kallade indirekta identifierare – exempelvis yrke, ålder eller geografisk plats. Detta gör det möjligt att genom kompletterande uppgifter koppla en person till information i en datamängd även när direkt identifierande uppgifter som namn eller personnummer saknas. Om det blir möjligt att identifiera en individ genom kompletterande uppgifter utgör datamängden som helhet personuppgifter. Även om risken för bakvägsidentifiering inte är hög behöver det ändå göras en bedömning av risken, som i bästa fall dokumenteras.

Hur mycket information behövs för att bakvägsidentifiera en individ?

Ett välkänt och belysande exempel på hur bakvägsidentifiering kan fungera kommer från USA, där forskaren Latanya Sweeney i sin artikel “k-anonymity: a model for protecting privacy” (PDF) visade att 85 procent av den amerikanska befolkningen kunde identifieras enbart med hjälp av postnummer, kön och födelsedatum. Detta demonstrerar att även till synes oskyldiga uppgifter kan räcka för att peka ut individer.

För att minska risken kan uppgifter ibland bearbetas, exempelvis genom omkodning och gruppering av variabler, såsom att dela in ålder i intervall eller använda mer övergripande geografiska nivåer. Även om datamängden då fortfarande kan innehålla känsliga personuppgifter kan risken för bakvägsidentifiering minska. Du kan läsa mer om hur du minskar risken för bakvägsidentifiering under Metoder i Handbok för data med personuppgifter.

Skyddsåtgärder – hur data lagras och hanteras

När forskningsdata innehåller personuppgifter behöver lämpliga skyddsåtgärder vidtas. Skyddsåtgärdernas karaktär varierar beroende på hur skyddsvärda uppgifterna är och vilka integritetsrisker innehållet medför för enskilda individer.

Känsliga personuppgifter kräver omfattande skyddsåtgärder, såsom rutiner för sekretessprövning innan utlämnande, säker lagring med åtkomstkontroll samt att endast metadata delas öppet medan själva datafiler tillhandahålls vid förfrågan.
Uppgifter med minimalt behov av skydd kan i vissa fall delas öppet, det kan då vara tillräckligt att informera användare om att uppgifterna kan omfattas av GDPR och att de själva ansvarar för att identifiera en rättslig grund och ändamål enligt GDPR i sin fortsatta behandling.

Skyddsåtgärder kan alltså vara både tekniska (säker lagring, behörighetsstyrning) och administrativa (sekretessprövning, avtal med användare). De flesta lärosäten erbjuder idag någon form av säker lagring för data med personuppgifter.

Bedömning av integritetsrisker och lämpliga skyddsåtgärder behöver göras från fall till fall och i sitt specifika sammanhang. Vänd dig till ditt lokala forskningsdatastöd, dataskyddsombud eller universitetsjurist för stöd i att klassificera hur skyddsvärda data är samt hur ett eventuellt utlämningsförfarande ska genomföras.

Transparens, information och dokumentation

En grundläggande princip inom integritetsskydd är skyldigheten att lämna information till forskningspersonerna om att deras personuppgifter kommer behandlas och på vilket sätt. Utan information kan individer inte utöva sina rättigheter enligt GDPR.

För forskare är information till forskningspersoner också central ur ett etiskt perspektiv. Informerade samtycken är bara giltiga om forskningspersonerna har fått korrekt och begriplig information i förväg. Det är därför klokt att redan i insamlingsskedet förklara att forskningsdata kan komma att bevaras och tillgängliggöras i repositorier för att möjliggöra ny forskning eller granskning. Informationen kan exempelvis formuleras på följande sätt:

Personuppgifter kan komma att lämnas vidare till exempelvis forskare, tidskrifter och andra behöriga för efterföljande forskning eller kontroll av forskning inom eller utanför landet. Varje utlämnande av data kommer då att prövas individuellt för att säkerställa att utlämnandet sker i enlighet med gällande lagstiftning och att personuppgifterna kan hanteras säkert.

Det är också viktigt att dokumentera de överväganden och åtgärder du gör för att skydda forskningsdata. Dokumentationen hjälper dig att komma ihåg hur data hanterats och kan vara avgörande vid en granskning eller incident. Dokumentationen kan ske i en datahanteringsplan eller ännu mer detaljerat genom en konsekvensbedömning. Om du är osäker på vad som gäller, kontakta ditt lokala forskningsdatastöd.

Mallar för samtycke och dokumentation

På Etikprövningsmyndighetens hemsida hittar du stödmallar för hur informerade samtycken till deltagare i forskningsstudier kan se ut. Integritetsskyddsmyndigheten tillhandahåller också en mall för bedömning av behovet av konsekvensbedömning, vilket fungerar som en bedömningsmall och dokumentation.

Exempel på personuppgifter och hur de kan hanteras

Indirekta personuppgifter

Även forskningsdata som inte innehåller direkta personuppgifter kan utgöra indirekta personuppgifter om det är möjligt att härleda informationen till en enskild individ med hjälp av kompletterande uppgifter. För att bedöma vilken nivå av skyddsåtgärd som är nödvändig behöver man avgöra vilka integritetsrisker som kan uppstå när data hanteras eller delas. Innehåller data information som kan anses som mycket känslig är det lämpligt att de hanteras med hjälp av säker lagring och endast delas efter sekretessprövning. Det kan till exempel gälla indirekt hälsoinformation, politiska åsikter eller information om ett stort antal individer. Är integritetsriskerna låga kan det räcka att informera användaren om att datasetet kan innehålla personuppgifter och att den som laddar ner det behöver tillämpa GDPR.

Scenario

En forskargrupp genomför en väljarundersökning med hjälp av frågeformulär som skickas ut via vanlig post. Originaldata innehåller direkt identifierande information i form av namn, personnummer och gatuadress. Denna information raderas permanent efter insamlingens slut men uppgifter om kön, ålder, yrke och bostadsort finns kvar.

I datasetet återfinns endast en svarande man från en kommun med cirka 2500 invånare, som är 65 år och arbetar som präst. Personen går enkelt att identifiera med kompletterande uppgifter såsom SCB:s statistik eller andra söktjänster på internet och känsliga uppgifter kring partisympatier kan sammankopplas med individen.

Datasetet betraktas därför innehålla känsliga personuppgifter och måste hanteras med skyddsåtgärder och du kan som forskare inte dela det öppet.

Pseudonymiserade personuppgifter med kodnyckel

Tillsammans med en kodnyckel kan ett pseudonymiserat dataset peka ut en individ och informationen bedöms därför utgöra personuppgifter. Sådana dataset ska alltid göras tillgängliga med begränsad åtkomst, där varje utlämnande föregås av en prövning.

Scenario

En forskargrupp genomför en panelstudie kring livsstil och politiska åsikter där data samlas in genom webbenkäter. Originaldata med direkt identifierande information, till exempel e-postadresser, hanteras med hjälp av säker lagring.

Ett separat dataset där e-postadresser ersätts med ett matchande löpnummer skapas. Indirekta identifierare som ålder, utbildning, inkomst och boendeort kodas om till såpass breda kategorier att det inte är möjligt att särskilja en enskild individ i datasetet.

Det nya datasetet kommer dock ändå att betraktas som personuppgifter eftersom löpnumret utgör en kodnyckel som kan koppla det nya datasetet till originaldata som i sin tur innehåller direkt identifierande information.

Det betyder att en enskild individ potentiellt kan pekas ut med hjälp av kodnyckeln och dataseten bedöms tillsammans utgöra personuppgifter. Sådana dataset ska alltid göras tillgängliga med begränsad åtkomst, där varje utlämnande föregås av en prövning.

Pseudonymiserade personuppgifter utan kodnyckel

Även om kodnyckeln eller andra kompletterande uppgifter förvaras åtskilda från datasetet hos en separat organisation betraktas datasetet fortfarande som indirekta personuppgifter likt ovan i exemplet med pseudonymiserade uppgifter med kodnyckel. Sådana dataset ska alltid göras tillgängliga med begränsad åtkomst, där varje utlämnande föregås av en prövning.

Scenario

En forskare genomför en intervjustudie med patienter som genomgått cellgiftsbehandling. Data innehåller personnummer som ersätts med ett löpnummer i en nytt separat dataset som endast innehåller information om forskningspersonernas hälsa och vårdupplevelse.

Originaldata med personnummer och matchande löpnummer lagras separat hos den region där intervjupersonen behandlats och är inte direkt åtkomlig för forskarna.

Även om det nya datasetet inte innehåller direkta personuppgifter kommer det att betraktas som känsliga personuppgifter. Det spelar i det här fallet ingen roll att forskaren själv inte har tillgång till kodnyckeln eftersom det kan finnas en risk för att individer kan identifieras om datasetet kombineras med kodnyckeln, även om risken är låg. Sådana dataset ska alltid göras tillgängliga med begränsad åtkomst, där varje utlämnande föregås av en prövning.

Olika varianter av samma dataset

Det är inte ovanligt att man som forskare skapar olika varianter av samma dataset för olika ändamål. Om något av dataseten innehåller direkta eller indirekta personuppgifter gäller i regel samma principer som i exemplen med och utan kodnyckel, även om nya varianter inte innehåller ett direkt matchande löpnummer. Anledningen är att det i många fall går att återidentifiera enskilda observationer genom att jämföra olika varianter av samma dataset.

Även om bakgrundsvariabler har tagits bort eller omkodats kan kombinationen av kvarvarande svar vara tillräckligt unik för att kopplas till motsvarande individ i det ursprungliga, icke omarbetade datasetet. På så sätt kan enskilda personer identifieras trots att materialet saknar löpnummer eller uppenbar kodnyckel.

Scenario

En forskare har ett dataset som saknar direkt identifierande information om forskningspersoner men som innehåller indirekta identifierare. Forskaren vill göra data öppet tillgängliga och skapar en ny version av datasetet där ålder och inkomst kodas om till breda kategorier som gör det omöjligt att identifiera enskilda individer. Utöver det raderas uppgifter som boendeort och inkomst helt.

Datasetet innehåller fortfarande ett tiotal flervalsfrågor kring politiska åsikter med fem svarsalternativ vardera. Kombinationerna av dessa svar kan skapa unika mönster som gör det möjligt att, exempelvis med hjälp av ett statistikprogram, matcha den bearbetade versionen mot det ursprungliga datasetet. På så sätt går det att identifiera vilken rad i originalmaterialet som motsvarar en viss respondent.

Detta innebär att detaljer från den bearbetade versionen kan kopplas tillbaka till det obearbetade materialet, vilket medför risk för återidentifiering. Data betraktas därför fortfarande som personuppgifter. Därför bör datasetet inte publiceras öppet utan istället göras tillgängligt med begränsad åtkomst, där varje utlämnande föregås av en prövning och hanteras med tydliga restriktioner.

Geografiska koordinater

Geografiska koordinater förekommer i många typer av forskningsdata. Om koordinater kan kopplas till en fastighet, som i sin tur kan vara kopplad till en individ (fastighetsägaren), kan informationen utgöra indirekta personuppgifter.

För att identifiera vilken individ som är knuten till en fastighet behöver man ofta begära ut uppgifter från Lantmäteriet. Den informationen innebär i många fall inget stort intrång i den personliga integriteten, till exempel uppgifter om fågelrutter över en fastighet. Men annan information kan vara känsligare, till exempel förekomst av skadedjur, eftersom det kan påverka fastighetens värde och därmed en individs ekonomi.

Scenario 2

Ett forskningsprojekt samlar in data om pollinering genom humlors rörelsemönster inom ett visst område. Området omfattar flera fastigheter och i vissa fall kan enskilda fastighetsägare identifieras genom Lantmäteriets databaser. Därmed klassas materialet som personuppgifter. Uppgifterna innebär dock inte någon risk för integritetsmässig, fysisk eller ekonomisk påverkan för de berörda individerna; det vill säga humlors flygrutter påverkar inte i praktiken fastighetsägarna på ett sätt som kan anses påverka individerna negativt. Mot denna bakgrund anses det möjligt att dela datasetet öppet, under förutsättning att forskaren informerar den som laddar ned uppgifterna om att materialet kan innehålla personuppgifter.

Referenser, källhänvisningar och bibliografiska studier

Författarlistor och källhänvisningar i forskningsdata kan i regel delas öppet, eftersom de är en nödvändig del av vetenskaplig publicering och normalt inte innebär några integritetsrisker.

Författare som genomför bibliografiska studier och hänvisar till andra källor, till exempel böcker eller artiklar, måste referera till källorna på ett tydligt och korrekt sätt. Det innebär att forskningsdata kan innehålla namn på författare eller andra upphovsmän, vilket räknas som personuppgifter. I bibliometriska studier – där data om publiceringar, citeringar och författarskap analyseras – är denna typ av personuppgifter själva grunden för forskningen.

Att ange referenser är både en skyldighet enligt upphovsrättslagen och en del av god forskningssed. Författarlistor, citeringar och källhänvisningar är dessutom information som till sin natur är avsedd att spridas och som är nödvändig för vetenskaplig publicering.

Mot denna bakgrund bedöms att spridning av författarlistor, citeringar och källhänvisningar kan omfattas av undantaget för akademiskt skapande enligt artikel 85.2 GDPR. Behandlingen av personuppgifter som detta medför anses därför av SND inte omfattas av GDPR:s fullständiga krav.

Scenario

En forskargrupp vill undersöka publiceringsmönster inom miljövetenskap i Norden under de senaste 20 åren. För att göra detta samlar de in data från internationella databaser över vetenskapliga artiklar. I materialet ingår uppgifter om artiklarnas titlar, författarlistor, citeringar och tidskrifter där artiklarna publicerats.

Eftersom forskningen bygger på att analysera vem som publicerat vad, när och var innehåller materialet personuppgifter i form av författarnamn. Dessa uppgifter är dock en nödvändig och integrerad del av forskningen och utan dem skulle det inte gå att studera exempelvis samarbetsmönster mellan forskare, citeringsfrekvens eller forskningsfältets utveckling över tid. Data omfattas därmed av undantaget akademiskt skapande och kan spridas och delas öppet.

Redan publicerade personuppgifter

Det förekommer att forskningsdata innehåller redan publicerade personuppgifter, till exempel om en forskare samlat in data från sociala medier. Att uppgifterna publicerats tidigare ändrar inte deras karaktär. Det är fortfarande personuppgifter som kan härledas till en individ.

Det kan vara svårt att bedöma intrånget i individens integritet och ofta behöver man göra en bedömning från fall till fall. Bedömningen kan skilja sig åt beroende på hur mycket information man använder i sin forskning och hur stora möjligheterna att återkoppla informationen till en individ är. Personer som skrivit på sociala medier kanske inte förväntat sig att deras uppgifter ska användas för forskningsändamål, även om de själva har delat informationen. Bedömningen påverkas också av om uppgifterna hämtats från slutna forum på internet eller från öppet tillgängliga källor. I många fall bör sådana data endast göras tillgängliga med begränsad åtkomst, där varje utlämnande föregås av en prövning.

Scenario 1

En forskare studerar högerpopulistiska åsiktsströmningar på Twitter/X över tid och samlar in data i form av offentliga uttalanden från användare på plattformen. Även om inläggen är offentliga innehåller de personuppgifter som kan härledas till enskilda användare, exempelvis genom kontonamn, profilbilder eller citat.

Forskningsnyttan är hög, men behandlingen av data innebär också en risk för de individer vars åsikter och uttalanden analyseras. Det kan exempelvis handla om att deras politiska ståndpunkter kartläggs, vilket är en känslig personuppgift enligt GDPR. Därför krävs en noggrann bedömning av riskerna för individen, där hänsyn tas till både forskningens syfte och individens integritet.

I detta fall kan det vara lämpligt att data endast göras tillgängliga med begränsad åtkomst, där varje utlämnande föregås av en prövning, samt att materialet avidentifieras eller aggregeras i möjligaste mån innan det görs tillgängligt för andra forskare.

Personuppgifter om tredje man i forskningsdata

Ibland förekommer uppgifter om en annan person än den forskningen riktat sig till, till exempel när en deltagare berättar om en politiker, en chef eller en anhörig. Även sådana uppgifter är personuppgifter och omfattas av GDPR.

Det kan vara stor skillnad i integritetsrisker beroende på sammanhanget. Uppgifter om offentliga personer i neutrala sammanhang kan betraktas som ofarliga och därför delas öppet. Uppgifter om privatpersoner i känsliga sammanhang kan däremot innebära intrång och bör hanteras med restriktioner.

Scenario 2

I en attitydundersökning får ett större antal personer svara på frågor om vad de tycker om olika svenska politiker. Datainsamlingen genomförs av ett privat opinionsföretag som raderar alla direkta identifierare innan data lämnas över till forskargruppen. De enda data forskarna har tillgång till är själva attityderna samt kön och ålder på respondenterna. Utifrån den aspekten är data att betrakta som anonyma.

Däremot förekommer det namn på de politiker som respondenterna yttrat sig om och därmed är data att betrakta som personuppgifter. Uppgifterna anses dock inte utgöra särskilt stort integritetsintrång för de enskilda då de är offentliga personer.

Detta innebär att datasetet kan delas öppet under förutsättning att det tydliggörs att det innehåller personuppgifter. Skyddsåtgärder som att säkerställa korrekt kontext och att undvika missbruk av materialet kan vara lämpliga, men den övergripande risknivån bedöms som låg.

Uppgifter om lagöverträdelser

Information om straffrättsliga överträdelser är inte en känslig personuppgift enligt GDPR, men anses ändå extra skyddsvärd och regleras särskilt i artikel 10.

Exempel på sådana uppgifter är målnummer i domar eller information om roller i rättsprocesser (t.ex. ”klaganden”). Även uppgifter från enkäter som rör brottslig handling, till exempel bruk av droger, omfattas. Sådan information bör alltid hanteras restriktivt.

Personuppgifter i bildmaterial

Forskningsdata som innehåller bilder kan i många fall utgöra personuppgifter. Även om namn eller personnummer saknas kan en person ibland identifieras direkt eller indirekt genom bildens innehåll eller genom metadata kopplade till bilden. Det kan exempelvis handla om att en persons kropp, särskilda signalement, eller andra unika kännetecken, liksom bostad, bil eller specifika miljöer går att känna igen och koppla till en enskild person.

När det gäller medicinska bilddata, som MR- eller röntgenbilder, kan identifiering ibland vara möjlig genom ovanliga medicinska kännetecken, till exempel särskilda skador, sjukdomstillstånd, anatomiska avvikelser eller andra unika indikatorer som kan kopplas till en individ. Även metadata som exempelvis kön, ålder, bostadsort eller kommun och tidpunkt för provtagning kan öka risken att det går att härleda vem materialet avser. Bedömningen om huruvida en bild ska betraktas som personuppgift beror med andra ord på hur sannolikt det är att en individ kan identifieras utifrån bildinformationen ensam eller i kombination med andra uppgifter.

Om det finns en möjlighet att en individ kan identifieras, exempelvis genom synliga ansiktsdrag, unika kännetecken eller andra metadata kopplade till bilden, som geografiska koordinater eller serienummer på en medicinsk bildfil, ska materialet hanteras som personuppgifter och göras tillgängligt med begränsad åtkomst och endast lämnas ut efter prövning. Är risken däremot låg och det inte finns några identifierande element, kan materialet betraktas som anonymiserat och delas öppet.

Scenario

Ett forskningsprojekt inom medicinsk bildanalys samlar in röntgenbilder för att utveckla och utvärdera AI-modeller som stödjer diagnostik och prognostik vid sjukdom. Forskargruppen granskar bildfilerna och konstaterar att de inte innehåller några direkta identifierare som namn, personnummer eller kodnycklar. Övriga uppgifter har avidentifierats, bland annat har ålder kategoriserats och undersökningsdatum har förskjutits. Att detta har gjorts på ett icke-reversibelt sätt framgår av den medföljande dokumentationen.

Bilderna avbildar inte ansikten eller andra igenkännbara fysiska kännetecken, varken ovanliga anatomiska särdrag eller särskilda skador. Inga kompletterande uppgifter finns som kan koppla bildfilerna till en specifik individ. Därmed bedöms materialet inte innehålla personuppgifter. Stöd för denna bedömning finns i skäl 26 i GDPR, där det framhålls att en fysisk person ska anses identifierbar om det finns hjälpmedel som med rimlig sannolikhet kan användas för att identifiera personen.

Mot denna bakgrund anses materialet vara tillräckligt anonymiserat för att kunna göras öppet tillgängligt. Det rekommenderas att åtgärderna för avidentifieringen dokumenteras tydligt, så att framtida användare kan förstå hur personuppgifter har avlägsnats och varför materialet inte längre omfattas av GDPR.