Verktyg

I arbetet med forskningsdata som innehåller personuppgifter och andra skyddsvärda data kan det underlätta med olika verktyg som hjälper till att hantera och skydda data. Det kan till exempel handla om att bedöma risken för återidentifiering eller om att systematiskt förbereda en datafil för utlämning. Här går vi igenom några olika verktygstyper och programvaror som kan vara användbara vid hantering av kvantitativa och kvalitativa data samt specifikt för kryptering, för att skapa syntetiska data och för säkra beräkningsmiljöer.

Verktyg för kvantitativa data

Det finns en rad olika verktyg för statistisk röjandekontroll i kvantitativa data, det vill säga för att skapa sig en bild av vilka risker för identifiering som finns i ens data. Verktygen erbjuder också olika typer av skyddsåtgärder och funktioner för att beräkna datamängdens användbarhet efter eventuella åtgärder. Nedan ger vi några exempel på de vanligaste verktygen för statistisk röjandekontroll.

sdcMicro

Programmet kan bland annat användas för att identifiera olika variabler eller kombinationer av variabler som innebär en risk för bakvägsidentifiering. Det hjälper användaren att relativt snabbt få en överblick över en datamängd. sdcMicro gör det möjligt att aggregera variabler och utvärdera effekten på risken för bakvägsidentifiering samt att analysera hur omarbetningar av data påverkar möjligheten till vidare analyser. Verktyget sdcMicro kan köras lokalt på din dator genom en programtolk för språket R. Det är gratis, nedladdningsbart och kan användas via ett grafiskt gränssnitt i webbläsaren som kallas sdcApp. När du arbetar med sdcApp-gränssnittet i webbläsaren får du genom hela processen tydliga förklaringar av olika förändringar, vilket gör att verktyget också passar bra för dig som inte redan är expert på hantering av mikrodata. SdcMicro dokumenterar alla genomförda ändringar av data i ett skript, vilket gör det lätt att se hur data har modifierats eller att göra samma ändringar på andra data. För att komma igång behöver du först ha tillgång till en R-miljö på din dator eller på en server (för nybörjare rekommenderas att installera RStudio). Verktyget hämtas därefter enklast som R-paket från paketrepositoriet CRAN med skriptet: install.packages("sdcMicro").

Amnesia

Amnesia pseudonymiserar data genom att använda en fördefinierad algoritm för att konvertera personuppgifter till pseudonymer. Algoritmen kan vara krypteringsbaserad eller hashbaserad. Även detta program kan användas för att aggregera variabler och utvärdera risken för bakvägsidentifiering. Programmet är Javabaserat och går att ladda ner och köra lokalt på din dator, men finns även i webbversion.

µ-Argus

µ-Argus är ett fristående grafiskt verktyg som utvecklats av och för statistiker på Nederländernas myndighet för statistik. Programmet är väl genomarbetat, innehåller ett brett utbud av åtgärder samt har hantering av SPSS-filer. Projektet har funnits ganska länge och är väletablerat inom hantering av mikrodata. Många av de funktioner som skapats för µ-Argus återanvänds därför också i andra projekt, till exempel i sdcMicro, genom öppen källkod. Därför är funktionerna också tillgängliga för programmatisk användning på olika sätt utanför det grafiska verktyget. µ-Argus är Java-baserat och kan köras lokalt på din dator via en kompatibel Javamiljö.

Verktyg för kvalitativa data

Det finns flera digitala verktyg som kan användas för att hantera kvalitativa data, särskilt för att underlätta anonymisering och strukturering av till exempel intervjumaterial. QualiAnon är ett exempel på verktyg som kan användas för att skydda personuppgifter samtidigt som datans analysvärde bevaras.

Qualianon

QualiAnon är ett verktyg som hjälper till att hitta personuppgifter och annan skyddsvärd information i textdata, till exempel i intervjutranskript. I QualiAnon kan du jobba systematiskt med olika former av uppmärkning och stopptermer. Verktyget kan därför utgöra ett stöd vid pseudonymisering av kvalitativa data, exempelvis när du som forskare ska förbereda datafiler för förmedling. QualiAnon är Javabaserat och kan köras lokalt på din dator via en kompatibel Javamiljö.

Verktyg för kryptering

7-Zip

7-Zip är ett komprimeringsprogram med öppen källkod som gör det möjligt att kryptera filer när man komprimerar dem. Krypteringsalgoritmen (AES-256) är stark, vilket betyder att det också är viktigt att välja ett starkt lösenord. Kryptering med 7-Zip är lämplig framför allt för säkerhetskopior, rådatafiler och andra filer som man inte aktivt arbetar med, eftersom processen att dekryptera filer, extrahera dem och sedan återkryptera och komprimera dem kan bli mödosam. En nackdel är att 7-Zip endast är tillgängligt för Windows och Linux. Mac-användare kan använda The Unarchiver för att dekryptera och extrahera 7-Zip-arkiv.

VeraCrypt

VeraCrypt är ett program med öppen källkod för att kryptera data med AES-256 och flera andra algoritmer. VeraCrypt skapar en krypterad ”container” som från utsidan ser ut som en vanlig fil (utan filnamnstillägg; man kan själv lägga till ett sådant, till exempel .pdf, för att ”dölja” filen). När man dekrypterar filen i VeraCrypt beter den sig som en nätverksvolym där man kan lägga sina filer. Till skillnad från Office och 7-Zip är VeraCrypt ett specialiserat krypteringsprogram som kan användas för både Windows, Linux och Mac. Nackdelen är därmed också att VeraCrypt är mer utrymmes- och resurskrävande.

Verktyg för att skapa syntetiska data

Syntetiska data är fiktiva data som har genererats från en statistisk modell och kan skapas på en rad olika sätt. De kan baseras på verkliga data eller genereras från grunden med hjälp av en självständig modell som använder specifika ingångsvärden.

Synthpop (R)

Synthpop är ett verktyg för att programmatiskt generera syntetiska data som kan modelleras för att efterlikna verkliga data genom att först analysera dem. Det går också att blanda in olika sorters generiska fördelningar i den syntetiska utmatningen.

Verktyget har öppen källkod och består av ett paket för programmeringsmiljön R. De flesta användningsområden kräver därför i dagsläget att du har grundläggande kunskaper i programmering, även om det arbetas på att tillgängliggöra fler funktioner via webbgränssnitt. Du kommer enklast åt Synthpop genom att installera det i en R-miljö med kommandot install.packages("synthpop")

Mockaroo

Mockaroo är ett enkelt webbaserat verktyg för att skapa helt generativa testdata som följer typiska distributioner för olika variabeltyper, till exempel bakgrundsvariabler för fiktiva individer. Det finns cirka 170 variabeltyper och du kan styra fördelningar med ett formelspråk. Verktyget är främst inriktat på testdata för programvaruutveckling, men kan vara användbart i många andra sammanhang.

Mockaroo är en kommersiell produkt, men gratisversionen kräver inte registrering och kan generera dataset om upp till 1 000 rader som kan laddas ner.

Säkra beräkningsmiljöer

En säker beräkningsmiljö är designad för att skydda känslig eller konfidentiell information samt forskningsdata mot obehörig åtkomst, dataläckor eller andra typer av säkerhetshot. Den är särskilt viktig där man hanterar personuppgifter eller andra skyddsvärda data. Många universitet erbjuder egna säkra lokala beräkningsmiljöer. Nedan listas två nationella exempel: MONA och Bianca.

Bianca (NAISS-SENS / UPPMAX)

Bianca (eller NAISS-SENS) är ett system för känsliga personuppgifter som är gratis att använda för alla svenska akademiska forskare. Det drivs av UPPMAX vid Uppsala universitet. Systemet erbjuder en Linux-miljö med omfattande lagrings- och beräkningsresurser, vilket gör det särskilt väl lämpat för analys av pseudonymiserade känsliga data. SIMPLER och SWEGEN använder Bianca för att tillhandahålla sina data, men de flesta användare tar med sig egna data eller använder data som importeras direkt från NGI.