
Vanliga frågor och missförstånd
Frågor och missförstånd kring personuppgifter i forskningsdata är vanliga. Den här sidan samlar några av de vanligaste exemplen och reder ut vad som gäller, för att ge forskare stöd i hur regler och riktlinjer ska tolkas i praktiken.
Vanliga frågor
När innehåller forskningsdata personuppgifter?
Forskningsdata innehåller personuppgifter om det förekommer information som direkt eller indirekt kan kopplas till en nu levande person. I forskningsdata kan direkta personuppgifter vara till exempel namn på forskningspersoner eller personnummer. Indirekta personuppgifter, uppgifter som tillsammans med kompletterande information kan identifiera en person i datamaterialet, kan vara födelsedatum, bostadsort och yrke. Den kompletterande informationen kan exempelvis finnas i en annan myndighets handlingar, hos registerhållare, hos ett företag eller hos en privatperson. Även en kodnyckel utgör kompletterande information.
Notera att hur svårt det är att få tag på kompletterande information som kan identifiera en person inte har någon betydelse för om data innehåller personuppgifter eller inte.
När innehåller forskningsdata inte personuppgifter längre?
När alla kopplingar till nu levande personer är borta.
Detta kan vara svårt att uppnå i efterhand när personuppgifter väl har samlats in. Bedömningen att forskningsdata inte längre utgör personuppgifter försvåras av att det skulle kunna finnas kompletterande information på annan plats som kan röja identiteter i forskningsdata. Det kan vara uppgifter som du eller din organisation inte själva bestämmer över (t.ex. en annan myndighets handlingar eller på internet). Lagstiftning och andra bestämmelser kan också kräva att handlingar som kan användas för att identifiera personer bevaras.
Vad är skillnaden mellan anonymiserade och pseudonymiserade data?
Anonymiserade data är data där alla personliga identifierare har tagits bort så att det inte längre är möjligt att koppla data till en specifik individ. Dessa data är därmed inte personuppgifter.
Pseudonymiserade data, å andra sidan, innebär att direkt identifierande information i ett datamaterial har bytts ut mot en pseudonym eller kod som inte kan kopplas till en individ om man inte har tillgång till ytterligare information, till exempel en kodnyckel. Pseudonymiserade data betraktas fortfarande som personuppgifter eftersom det finns information som skulle kunna koppla ihop uppgifterna i datamaterialet med en specifik individ.
Pseudonymisering kan alltså minska risken för identifiering men forskningsdata betraktas som anonymiserade först när det inte längre går att återskapa kopplingar till individer, till exempel om kodnyckeln har tagits bort permanent. Även aggregering kan göra att pseudonymiserade forskningsdata kan klassas som anonymiserade om de kategorier som skapas är tillräckligt breda (t.ex. att specifika åldrar kodas om till tillräckligt breda ålderskategorier) så att kompletterande datakällor inte kan användas för att identifiera en enskild individ.
Vad som betraktas som pseudonymiserade forskningsdata skiljer sig ofta åt beroende på om det rör sig om kvantitativa eller kvalitativa forskningsprojekt. I kvantitativa forskningsprojekt innebär pseudonymisering att man ersätter personliga uppgifter som namn och personnummer med koder eller löpnummer. Dessa koder kan endast kopplas till individerna genom en separat fil som hanteras och förvaras skild från datamängden. För kvalitativa data, som intervjuer, innebär pseudonymisering att man ersätter namn med pseudonymer och specifika yrkestitlar eller arbetsplatser med mer generella beskrivningar för att minska risken för identifiering.
Notera att lagar och regler kan variera mellan olika länder och att det är viktigt att alltid beakta den juridiska och institutionella kontexten när man hanterar forskningsdata. Kontakta gärna stödfunktionerna vid ditt lärosäte för rådgivning kring hantering av personuppgifter i forskningsprojekt.
Kan jag radera originaldata för att möjliggöra anonymisering?
Dataskyddsförordningen (GDPR) innehåller en princip som innebär att personuppgifter inte bör lagras längre än vad som krävs för att uppfylla de ursprungliga ändamålen som uppgifterna samlades in för. GDPR:s lagringsbegränsning menar alltså att när ändamålen har uppnåtts bör forskningsdata rensas från personuppgifter. I praktiken åsidosätts ofta detta eftersom arkivbestämmelser ställer krav på att data från offentligt finansierad forskning ska bevaras. Om du arbetar på ett lärosäte eller i en annan organisation som är en myndighet gäller arkivlagen för de handlingar som myndigheten hanterar. För att få radera insamlade data behövs då ett gallringsbeslut, som ofta har en frist på 10 år. Vissa forskningsdata behöver dessutom bevaras oförändrade för framtiden. Vad som ska bevaras och vad som kan gallras regleras bland annat genom Riksarkivets föreskrifter och allmänna råd om gallring av handlingar i statliga myndigheters forskningsverksamhet och av lokala tillämpningsbeslut som berättar hur din myndighet bedömer att olika handlingstyper ska hanteras. Ta kontakt med arkivfunktionen vid din organisation för att få veta vad som gäller för just dig och ditt material.
Sammanfattningsvis betyder det att om du har samlat in personuppgifter i forskning kan data sällan göras anonyma i närtid, eftersom originaldata och eventuella kodnycklar i regel behöver sparas så länge det inte finns ett gallringsbeslut.
Är forskningsdata allmän handling?
Ja, forskningsdata är i regel alltid allmän handling, eller del av en allmän handling, om forskningen genomförs vid en svensk myndighet eller annan forskande organisation som omfattas av offentlighetsprincipenÖppnas i en ny tabb. Data blir allmän handling om de förvaras hos myndigheten och kommer in eller skickas ut eller (om de varken skickas ut eller kommer in) när de färdigställs vid myndigheten. Exempel på allmänna handlingar är inkomna svar från en enkätundersökning, ljudupptagningen från en intervjuperson, utmatningen från analysutrustning i ett laboratorium eller registerutdraget som levereras till dig från en registerhållare.
Vad du får och inte får göra med forskningsdata i egenskap av allmän handling styrs av svenska lagar som offentlighets- och sekretesslagen, dataskyddslagen, arkivlagen och Riksarkivets författningssamling. Vägledningar för hur lagarna bör tolkas i din verksamhet brukar finnas i lokala styrdokument, till exempel den dokumenthanteringsplan för olika handlingstyper som gäller i din organisation.
En utgångspunkt är alltså att rådata som samlas in av, uppkommer i eller levereras till ett svenskt forskningsprojekt behöver sparas eftersom de är allmänna handlingar. Det finns ytterligare lagkrav på att forskningsdata ska sparas för att till exempel vara tillgängliga för revision eller granskning i en oredlighetsutredning. Detta innebär också att insamlade personuppgifter och eventuella upprättade kodnycklar i allmänhet också behöver sparas. Se svaret på frågan ”Kan jag radera originaldata för att möjliggöra anonymisering?” ovan.
Möjligheten att gallra forskningsdata som är allmänna handlingar uppstår först efter att gallringsfristen löpt ut. Ta kontakt med forskningsdatastödet och arkivfunktionen vid din organisation för att veta vad som gäller för just dig och ditt material.
Kan jag lova respondenter/forskningspersoner att data inte kommer att delas vidare?
Eftersom forskningsdata som är framtagna hos en myndighet i regel är allmän handling kan de begäras ut enligt offentlighetsprincipen. Detta innebär att oavsett vad som står i den information som lämnats till forskningspersonerna måste det göras en sekretessbedömning om någon begär att få ta del av forskningsdata. Forskningsdata som inte omfattas av en sekretessbestämmelse ska lämnas ut. Det går därför inte att lova forskningspersonerna att deras personuppgifter inte kommer att delas vidare. Offentlighetsprincipen är tvingande och går inte att förhandla bort.
Det innebär inte att uppgifterna kommer att delas fritt eller öppet. Forskningsdata med personuppgifter omfattas ofta av sekretess i enlighet med offentlighets- och sekretesslagen och en eventuell utlämning behöver prövas innan handlingen kan lämnas ut. Forskaren eller den enskilde forskningspersonen kan däremot inte själva bestämma om handlingen omfattas av sekretess eller inte.
Behövs samtycke från forskningspersonerna?
Det finns olika typer av samtycken som aktualiseras vid olika situationer i forskning. De fyller olika funktioner och därför är det är viktigt att veta vilken typ av samtycke som behöver hämtas in och vad det innebär om samtycket återkallas.
Att den som deltar i ett forskningsprojekt samtycker till det är en grundläggande forskningsetisk princip som ingår i många centrala riktlinjer och rekommendationer om god forskningssed. Denna typ av samtycke behövs i de allra flesta fall när människor deltar som forskningspersoner i en studie.
En annan typ av samtycke som kan bli aktuell är det informerade samtycke som krävs för viss forskning som omfattas av 4 § etikprövningslagen, klinisk läkemedelsprövning, klinisk prövning av medicintekniska produkter och behandling av biologiska prover enligt biobankslagen.
Samtycke kan också vara den rättsliga grunden för behandling av personuppgifter enligt dataskyddsförordningen (GDPR). Den rättsliga grund som används för personuppgiftsbehandling i forskning är dock oftast allmänt intresse, inte samtycke. Därför behöver man sällan hämta in något samtycke för att få rätt att behandla personuppgifter utifrån bestämmelserna i GDPR.
Läs mer om rättslig grund för personuppgiftsbehandling i forskningÖppnas i en ny tabb.
Vad gäller kring information till forskningspersoner?
I många fall måste den personuppgiftsansvarige informera den registrerade (den vars uppgifter behandlas) om behandlingen av personuppgifter. Rätten till information är en viktig rättighet enligt GDPR. Av informationen ska det bland annat framgå vem som är personuppgiftsansvarig och vilken rättslig grund och vilket ändamål som behandlingen har. Det finns undantag från informationskravet, till exempel om det skulle visa sig omöjligt eller medföra en oproportionerlig ansträngning att informera om behandlingen av personuppgifter. Så kan situationen vara vid exempelvis registerforskning där forskaren endast har tillgång till pseudonymiserade personuppgifter och inte har möjlighet att kontakta de registrerade.
Med vem får jag dela forskningsdata från mitt projekt?
Innan du ska dela forskningsdata behöver du klargöra vad det är för delning du vill göra. Vill du dela forskningsdata utanför din organisation med en bestämd mottagare som du samarbetar med eller lämna ut data till ett repositorium? Beroende på vad delningen har för syfte görs olika bedömningar och generellt ska varje enskilt utlämnande prövas hos myndigheter i enlighet med offentlighets- och sekretesslagen.
Lagstiftningen begränsar möjligheterna att publicera forskningsdata som innehåller personuppgifter som helt öppet tillgängliga data. Detta är endast möjligt i vissa undantagsfall. För att vara säker på att du delar data på ett korrekt sätt är det bra att ta kontakt med den lokala stödfunktionen för forskningsdata, jurist eller dataskyddsombud vid din organisation.
Läs mer om att dela forskningsdata med personuppgifterÖppnas i en ny tabb.
En tidskrift vill ha tillgång till data med personuppgifter som tillhör min publikation – vad gör jag?
För att dela data med personuppgifter vidare till en tidskrift behöver utlämnandet prövas individuellt i enlighet med offentlighets- och sekretesslagen. Handläggningen bör göras på samma sätt som när vem som helst gör en förfrågan om utlämnande av en allmän handling. Registrator, den lokala stödfunktionen för forskningsdata, jurist eller dataskyddsfunktionen på din myndighet kan hjälpa dig med processen.
Läs mer om att dela forskningsdata med personuppgifter.
Hur kan jag dela data med tredje land?
Om du behöver dela data med personuppgifter med ett land utanför EU krävs samma bedömning enligt offentlighets- och sekretesslagen som för annan delning. Om data får delas, tänk på att själva överföringen av datafilerna måste ske på ett säkert sätt. Det är till exempel inte lämpligt att skicka filer med vanlig e-post. Exempel på överföring av personuppgifter till tredje land kan vara:
- när du skickar dokument som innehåller personuppgifter per e-post till en mottagare i ett land utanför EU/EES
- när du anlitar ett personuppgiftsbiträde i ett land utanför EU/EES
- när du ger någon utanför EU/EES tillgång till, exempelvis läsbehörighet, personuppgifter som finns lagrade inom EU/EES
- när du lagrar personuppgifter i en molntjänst som är baserad utanför EU/EES.
Kapitel V i GDPR reglerar tredjelandsöverföringar. Ta hjälp av jurist för att reda ut vilka möjligheter som finns att dela data med tredje land.
Jag har forskningsdata som samlats in utanför EU – gäller GDPR?
GDPR gäller för alla personuppgifter som har samlats in utanför EU/EES om den personuppgiftsansvarige eller personuppgiftsbiträdet är etablerad inom EU/EES eller om de riktar sig till personer inom EU/EES.
Jag har forskningsdata som innehåller personuppgifter som redan är publicerade – ska de data jag har betraktas/hanteras som personuppgifter?
Ja. När du behandlar personuppgifter för forskningsändamål regleras personuppgiftsbehandlingen med hänsyn till den enskilda forskningskontexten. Din forskning räknas alltså som en ny personuppgiftsbehandling och behöver bland annat ha en egen rättslig grund och ett specifikt angivet ändamål. Att forskningsdata redan är publicerade spelar alltså ingen roll.
Det finns personuppgifter i mina forskningsdata, men det är bara uppgifter om personer som gett upphov till ett annat verk. Kan jag publicera dem öppet?
Att ange upphovspersonerna till ett verk är en lagstadgad skyldighet enligt lag (1960:729) om upphovsrätt till litterära och konstnärliga verk. Därmed finns det alltså en rättslig grund (rättslig förpliktelse) och ett ändamål för den behandling som publiceringen av uppgifterna innebär och du kan publicera dem öppet.
Vanliga missförstånd
"Det finns ingen risk – ingen vill ändå veta vem som ingår i min studie"
Återidentifiering kan ske avsiktligt, av misstag, vid dataintrång eller om information sprids offentligt. Det kan bero på nyfikenhet, slumpen eller ett medvetet intresse – till exempel inom forskning, journalistik eller brottslig verksamhet.
Hur allvarlig konsekvensen blir beror på sammanhanget. Även till synes harmlös information, som vilket bilmärke någon kör, kan indirekt leda till återidentifiering och avslöja känsliga uppgifter – till exempel politiska åsikter eller sexuell läggning – särskilt om sådana frågor ställts i en och samma undersökning.
Poängen är att även information som inte verkar känslig vid första anblick kan bidra till att identifiera en person – och återidentifiering kan ske både avsiktligt och av misstag, oavsett om det finns ett intresse av personerna i forskningsdata eller inte.
"Pseudonymisering är samma sak som anonymisering"
Pseudonymisering innebär att behandla personuppgifter på ett sådant sätt att de inte längre kan kopplas till en specifik individ utan användning av kompletterande information som förvaras separat från originaldata. Detta innebär att man med hjälp av kompletterande information (till exempel en kodnyckel) skulle kunna identifiera individer, vilket innebär att pseudonymiserade personuppgifter fortfarande är personuppgifter.
Anonymisering, å andra sidan, innebär att helt ta bort identifierande information ur en datamängd och att på ett oåterställbart sätt bryta kopplingar till kompletterande datakällor som skulle kunna göra det möjligt att identifiera en enskild individ. Forskningsdata kan då inte längre kopplas till specifika individer och är därmed inte längre att betrakta som personuppgifter.
"Kryptering är anonymisering"
När man krypterar använder man krypteringsnycklar, antingen en hemlig nyckel eller en kombination av privat och publik nyckel, för att omvandla informationen på ett sätt som minskar risken att den missbrukas samtidigt som man bevarar konfidentialiteten under en viss tid. Men eftersom det måste gå att få tillgång till den ursprungliga informationen är de omvandlingar som tillämpas av krypteringsalgoritmer utformade för att vara reversibla.
Det ska alltså vara möjligt att dekryptera informationen. Nycklarna som används för dekryptering är alltså exempel på den tidigare nämnda ”kompletterande informationen” (se föregående missförstånd) som kan göra personuppgifterna läsbara och därmed göra det möjligt att identifiera specifika individer. I teorin kan man tänka att om man raderar krypteringsnyckeln för krypterade forskningsdata så blir de anonyma, men så behöver inte vara fallet. Man kan inte utgå från att krypterade data inte kan dekrypteras bara för att krypteringsnyckeln sägs vara ”raderad” eller ”okänd”.
Det finns många faktorer som påverkar konfidentialiteten hos krypterade data, framför allt på lång sikt. Några exempel är vilken styrka krypteringsalgoritmen och -nyckeln har, informationsläckor, implementeringsproblem, mängden krypterade data och tekniska framsteg. Kryptering innebär alltså inte anonymisering men kan vara ett användbart verktyg för att pseudonymisera forskningsdata med personuppgifter.
"Forskningsdata kan alltid anonymiseras"
Det är inte alltid möjligt att minska eller helt eliminera risken för återidentifiering samtidigt som man behåller en användbar datamängd för ett specifikt ändamål. Anonymisering är en process som försöker hitta rätt balans mellan att minska risken för återidentifiering och att behålla datamängdens nytta för forskningens avsedda syfte.
Vissa egenskaper hos forskningsdata och vissa sammanhang innebär därför att risken för återidentifiering inte kan minskas tillräckligt. Detta kan till exempel vara fallet när det totala antalet möjliga individer med en viss egenskap är för litet, när datatyperna skiljer sig så mycket mellan individer att de kan identifieras eller när datamängder innehåller ett stort antal demografiska variabler eller platsdata.
"Anonymisering är permanent för all framtid"
Anonymiseringen och hur den implementeras påverkar risken för återidentifiering. Även om 100 % anonymisering är det man önskar sig ur ett dataskyddsperspektiv är det i vissa fall inte möjligt och man måste vara medveten om att det finns en kvarstående risk för återidentifiering.
Anonymisering handlar som sagt var inte bara om att ta bort direkta identifierare ur en datamängd utan även om kopplingar till andra kompletterande datakällor som skulle kunna göra det möjligt att identifiera enskilda individer. Omständigheter förändras över tid.
Till exempel kan ny kunskap och tekniska framsteg som AI, ökad datorkraft eller nya sätt att tillämpa befintliga teknologier skapa möjligheter till återidentifiering i vad som tidigare betraktades som anonyma datamängder. Dessutom kan dataläckor eller tillgängliggörande av ytterligare kompletterande datakällor med tiden göra det möjligt att koppla tidigare anonyma data till identifierade individer. Därför finns det en risk att vissa anonymiseringsprocesser i framtiden kan komma att återställas.
"Det finns ingen risk för återidentifiering i anonymiserade data"
Uttrycket ”anonyma data” bör inte förstås som att man helt enkelt kan markera en datamängd som anonym eller inte anonym. Det är inte ett binärt kocept utan en glidande skala. Förutom i specifika fall där forskningsdata är oerhört generaliserade är risken för återidentifiering aldrig noll. Varje post i en datamängd har en sannolikhet att bli återidentifierad, baserat på hur möjligt det är att skilja ut posterna. Det finns metoder för att utvärdera risken för återidentifiering, vilket bör göras både initialt och sedan följas upp över tid.
Läs mer om metoder för att minska risken för återidentifiering.
"Anonymisering gör forskningsdata oanvändbara"
Syftet med anonymisering är att förhindra identifiering av individer i en datamängd. Anonymiseringstekniker begränsar hur den resulterande datamängden kan användas, men detta innebär inte att forskningsdata blir oanvändbara. Användbarheten beror snarare på forskningssyftet och vad man anser är en acceptabel risk för återidentifiering. I vissa fall kan det vara så att det inte är möjligt att anonymisera uppgifterna på grund av forskningssyftet, vilket tvingar forskarna att välja mellan att behandla personuppgifter (och exempelvis pseudonymisera dem) eller att inte behandla data alls.
"En anonymiseringsprocess som fungerat bra för andra kommer att fungera lika bra för mitt forskningsprojekt"
Anonymiseringsprocesser behöver anpassas efter datas egenskaper, omfattning och sammanhang, liksom efter projektets forskningssyften. Det finns inte något enkelt recept på anonymisering som passar alla.
En nål i en höstack eller inte så svårt som du tror?
Ett vanligt missförstånd är att det är svårt att urskilja en enskild person ur en stor population. I själva verket krävs ofta förvånansvärt få uppgifter för att identifiera någon, särskilt om informationen kan kombineras med andra källor.