Gå direkt till huvudinnehåll

Verktyg

I arbetet med forskningsdata som innehåller personuppgifter och andra skyddsvärda data kan det underlätta med olika verktyg som hjälper till att hantera och skydda data. Det kan till exempel handla om att bedöma risken för återidentifiering eller om att systematiskt förbereda en datafil för utlämning. Här går vi igenom några olika verktygstyper och programvaror som kan vara användbara vid hantering av kvantitativa och kvalitativa data samt specifikt för kryptering, för att skapa syntetiska data och för säkra beräkningsmiljöer.

Verktyg för kvantitativa data

Det finns en rad olika verktyg för statistisk röjandekontroll i kvantitativa data, det vill säga för att skapa sig en bild av vilka risker för identifiering som finns i ens data. Verktygen erbjuder också olika typer av skyddsåtgärder och funktioner för att beräkna datamängdens användbarhet efter eventuella åtgärder. Nedan ger vi några exempel på de vanligaste verktygen för statistisk röjandekontroll.

sdcMicro

Programmet kan bland annat användas för att identifiera olika variabler eller kombinationer av variabler som innebär en risk för bakvägsidentifiering. Det hjälper användaren att relativt snabbt få en överblick över en datamängd. sdcMicro gör det möjligt att aggregera variabler och utvärdera effekten på risken för bakvägsidentifiering samt att analysera hur omarbetningar av data påverkar möjligheten till vidare analyser. Verktyget sdcMicro kan köras lokalt på din dator genom en programtolk för språket R. Det är gratis, nedladdningsbart och kan användas via ett grafiskt gränssnitt i webbläsaren som kallas sdcApp. När du arbetar med sdcApp-gränssnittet i webbläsaren får du genom hela processen tydliga förklaringar av olika förändringar, vilket gör att verktyget också passar bra för dig som inte redan är expert på hantering av mikrodata. SdcMicro dokumenterar alla genomförda ändringar av data i ett skript, vilket gör det lätt att se hur data har modifierats eller att göra samma ändringar på andra data. För att komma igång behöver du först ha tillgång till en R-miljö på din dator eller på en server (för nybörjare rekommenderas att installera RStudio). Verktyget hämtas därefter enklast som R-paket från paketrepositoriet CRAN med skriptet: install.packages("sdcMicro").

Här kan du ladda ner sdcMicro
Har kan du ta del av en introduktionsvideo till sdcMicro
Amnesia

Amnesia pseudonymiserar data genom att använda en fördefinierad algoritm för att konvertera personuppgifter till pseudonymer. Algoritmen kan vara krypteringsbaserad eller hashbaserad. Även detta program kan användas för att aggregera variabler och utvärdera risken för bakvägsidentifiering. Programmet är Javabaserat och går att ladda ner och köra lokalt på din dator, men finns även i webbversion.

Här kan du ladda ner Amnesia
Här kan du ta del av en introduktionsvideo till Amnesia
ARX

ARX finns både som fristående grafiskt verktyg och som programmatiskt bibliotek. Det stödjer användaren med tydliga säkerhetsmodeller (inklusive både l-diversitet/l-diversity och t-närhet/t-closeness) och mått på informationsförlust. ARX är Javabaserat och kan köras lokalt på din dator via en kompatibel Javamiljö.

Här kan du ladda ner ARX
Här kan du ta del av en introduktionsvideo till ARX
µ-Argus

µ-Argus är ett fristående grafiskt verktyg som utvecklats av och för statistiker på Nederländernas myndighet för statistik. Programmet är väl genomarbetat, innehåller ett brett utbud av åtgärder samt har hantering av SPSS-filer. Projektet har funnits ganska länge och är väletablerat inom hantering av mikrodata. Många av de funktioner som skapats för µ-Argus återanvänds därför också i andra projekt, till exempel i sdcMicro, genom öppen källkod. Därför är funktionerna också tillgängliga för programmatisk användning på olika sätt utanför det grafiska verktyget. µ-Argus är Java-baserat och kan köras lokalt på din dator via en kompatibel Javamiljö.

Här kan du ladda ner µ-Argus

Verktyg för kvalitativa data

Det finns flera digitala verktyg som kan användas för att hantera kvalitativa data, särskilt för att underlätta anonymisering och strukturering av till exempel intervjumaterial. QualiAnon är ett exempel på verktyg som kan användas för att skydda personuppgifter samtidigt som datans analysvärde bevaras.

Qualianon

QualiAnon är ett verktyg som hjälper till att hitta personuppgifter och annan skyddsvärd information i textdata, till exempel i intervjutranskript. I QualiAnon kan du jobba systematiskt med olika former av uppmärkning och stopptermer. Verktyget kan därför utgöra ett stöd vid pseudonymisering av kvalitativa data, exempelvis när du som forskare ska förbereda datafiler för förmedling. QualiAnon är Javabaserat och kan köras lokalt på din dator via en kompatibel Javamiljö.

Här kan du laddda ner QualiAnon

Verktyg för kryptering

Det finns flera digitala verktyg som kan användas för att hantera kvalitativa data, särskilt för att underlätta anonymisering och strukturering av till exempel intervjumaterial. QualiAnon är ett exempel på verktyg som kan användas för att skydda personuppgifter samtidigt som datans analysvärde bevaras.

Microsoft Office och LibreOffice

Office-program som Microsoft Office och LibreOffice har funktioner för att kryptera dokument (i Microsoft Office, gå till Arkiv-menyn, välj ”Info” och därefter ”Skydda dokument”). Krypteringsalgoritmen är i princip stark i någorlunda nya versioner av Office-program (efter 2007), vilket betyder att säkerheten främst beror på lösenordets styrka.

7-Zip

7-Zip är ett komprimeringsprogram med öppen källkod som gör det möjligt att kryptera filer när man komprimerar dem. Krypteringsalgoritmen (AES-256) är stark, vilket betyder att det också är viktigt att välja ett starkt lösenord. Kryptering med 7-Zip är lämplig framför allt för säkerhetskopior, rådatafiler och andra filer som man inte aktivt arbetar med, eftersom processen att dekryptera filer, extrahera dem och sedan återkryptera och komprimera dem kan bli mödosam. En nackdel är att 7-Zip endast är tillgängligt för Windows och Linux. Mac-användare kan använda The UnarchiverÖppnas i en ny tabb för att dekryptera och extrahera 7-Zip-arkiv.

Här kan du ladda ner 7-Zip
VeraCrypt

VeraCrypt är ett program med öppen källkod för att kryptera data med AES-256 och flera andra algoritmer. VeraCrypt skapar en krypterad ”container” som från utsidan ser ut som en vanlig fil (utan filnamnstillägg; man kan själv lägga till ett sådant, till exempel .pdf, för att ”dölja” filen). När man dekrypterar filen i VeraCrypt beter den sig som en nätverksvolym där man kan lägga sina filer. Till skillnad från Office och 7-Zip är VeraCrypt ett specialiserat krypteringsprogram som kan användas för både Windows, Linux och Mac. Nackdelen är därmed också att VeraCrypt är mer utrymmes- och resurskrävande.

Här kan du ladda ner VeraCrypt

Verktyg för att skapa syntetiska data

Syntetiska data är fiktiva data som har genererats från en statistisk modell och kan skapas på en rad olika sätt. De kan baseras på verkliga data eller genereras från grunden med hjälp av en självständig modell som använder specifika ingångsvärden.

Synthpop (R)

Synthpop är ett verktyg för att programmatiskt generera syntetiska data som kan modelleras för att efterlikna verkliga data genom att först analysera dem. Det går också att blanda in olika sorters generiska fördelningar i den syntetiska utmatningen.

Verktyget har öppen källkod och består av ett paket för programmeringsmiljön R. De flesta användningsområden kräver därför i dagsläget att du har grundläggande kunskaper i programmering, även om det arbetas på att tillgängliggöra fler funktioner via webbgränssnitt. Du kommer enklast åt Synthpop genom att installera det i en R-miljö med kommandot install.packages("synthpop")

Här kan du läsa mer om synthpop
SDV – Synthetic Data Vault (Python)

SDV (Synthetic Data Vault) är ett verktyg för att generera syntetiska data baserat på statistiska modeller och maskininlärning. Det har utvecklats av Data to AI Lab vid MITÖppnas i en ny tabb och är ett open source-verktyg som kan hantera tabellbaserade, relationsdatabaserade och tidsseriedata för att skapa syntetiska dataset som liknar verkliga.

SDV är öppen källkod och installeras i en Python-miljö med kommandot pip install sdv

Här kan du läsa mer om SDV
Mockaroo

Mockaroo är ett enkelt webbaserat verktyg för att skapa helt generativa testdata som följer typiska distributioner för olika variabeltyper, till exempel bakgrundsvariabler för fiktiva individer. Det finns cirka 170 variabeltyper och du kan styra fördelningar med ett formelspråk. Verktyget är främst inriktat på testdata för programvaruutveckling, men kan vara användbart i många andra sammanhang.

Mockaroo är en kommersiell produkt, men gratisversionen kräver inte registrering och kan generera dataset om upp till 1 000 rader som kan laddas ner.

Här kan du prova verktyget

Säkra beräkningsmiljöer

En säker beräkningsmiljö är designad för att skydda känslig eller konfidentiell information samt forskningsdata mot obehörig åtkomst, dataläckor eller andra typer av säkerhetshot. Den är särskilt viktig där man hanterar personuppgifter eller andra skyddsvärda data. Många universitet erbjuder egna säkra lokala beräkningsmiljöer. Nedan listas två nationella exempel: MONA och Bianca.

MONA (SCB)

MONA (Microdata Online Access) är SCB:s plattform för tillgång till mikrodata. I MONA kan man bearbeta data online utan att de lämnar SCB. Systemet erbjuder ett urval av programvaror (t.ex. statistik- och ordbehandlingsprogram) och användarens eget material kan laddas upp till deras lagringsyta.

Här kan du läsa mer om och få åtkomst till MONA
Bianca (NAISS-SENS / UPPMAX)

Bianca (eller NAISS-SENS) är ett system för känsliga personuppgifter som är gratis att använda för alla svenska akademiska forskare. Det drivs av UPPMAX vid Uppsala universitet. Systemet erbjuder en Linux-miljö med omfattande lagrings- och beräkningsresurser, vilket gör det särskilt väl lämpat för analys av pseudonymiserade känsliga data. SIMPLERÖppnas i en ny tabb och SWEGENÖppnas i en ny tabb använder Bianca för att tillhandahålla sina data, men de flesta användare tar med sig egna data eller använder data som importeras direkt från NGI.

Här kan du läsa mer om och få åtkomst till Bianca