
Syntetiska data
Syntetiska data är fiktiva data som har genererats på artificiell väg. De kan vara helt artificiellt skapade eller delvis syntetiska, där enbart vissa känsliga variabler ersätts med konstgjorda värden medan övriga uppgifter behålls från det ursprungliga materialet.
Till skillnad från att enbart modifiera ett befintligt dataset för att göra det mindre identifierbart kan syntetiska data bestå av helt nya observationer. De genereras genom statistiska fördelningsmodeller, slumpgeneratorer eller mer avancerade maskininlärningstekniker, och kan användas för olika ändamål: till exempel för att skydda personuppgifter, verifiera data eller testa programvara.
Därför hänvisar syntetiska data inte till en enskild typ av data som finns i filer med specifika format. Poängen är att möjliggöra analys och delning utan att äventyra integriteten i det ursprungliga datamaterialet, eftersom det är de modellerade värdena som analyseras i stället för de faktiska personuppgifterna.

Överväganden för syntetiska data som bygger på personuppgifter
Syntetiska dataset som baseras på originaldata som innehåller personuppgifter beskrivs vanligtvis med den inneboende och något motsägelsefulla termen "syntetiska persondata". Att skapa syntetiska data med hjälp av data innehållande personuppgifter eller annan känslig information kräver ytterligare skyddsåtgärder.
Ett av de främsta övervägandena med syntetiska personuppgifter är risken för återidentifiering. Syntetiska data kan i vissa fall kan vara så realistiska att de möjliggör återidentifiering av individer i de verkliga data som användes för att träna modellen.
För att minska risken för identifiering bör man därför:
- Dokumentera riskbedömningar för återidentifiering med mätvärden såsom k-anonymitet och kvantifiera skillnaderna från originaldatasetet.
- Överväga hur avvikande värden påverkar identifieringsriskerna.
- Överväga kraven på överensstämmelse med originaldata. Hög överensstämmelse med originaldatasetet kan öka identifieringsrisken, och är inte alltid nödvändig eller ens önskvärt.
Dessutom bör du överväga:
- Mappstruktur: Om originaldata är känsliga och inte kan delas, överväg att tillhandahålla en tom platshållarfil eller ett syntetiskt dataset med begränsad detaljrikedom.
- Tillhandahållande av provdata: När åtkomsten till datasetet är begränsad kan ett riskfritt provdataset ge användare en överblick av innehållet innan de ansöker om fullständig åtkomst.
- Metadata och kodböcker: Du kan göra syntetiska enkätdata lättare att återanvända genom att beskriva variabler i en kodbok med standardformat istället för i en generisk textfil.
Nedan studie ger en introduktion till syntetiska data genom att gå igenom vad syntetiska data är, varför de kan vara användbara och hur man kan gå till väga för att använda dem.
- Jordon, J., Szpruch, L., Houssiau, F., Bottarelli, M., Cherubin, G., Maple, C., Cohen, S. N. & Weller, A. (2022). Synthetic Data – what, why and how? arXiv:2205.03257. LänkÖppnas i en ny tabb