Syntetiska data

Syntetiska data är fiktiva data som har genererats på artificiell väg. De kan vara helt artificiellt skapade eller delvis syntetiska, där enbart vissa känsliga variabler ersätts med konstgjorda värden medan övriga uppgifter behålls från det ursprungliga materialet.

Till skillnad från att enbart modifiera ett befintligt dataset för att göra det mindre identifierbart kan syntetiska data bestå av helt nya observationer. De genereras genom statistiska fördelningsmodeller, slumpgeneratorer eller mer avancerade maskininlärningstekniker, och kan användas för olika ändamål: till exempel för att skydda personuppgifter, verifiera data eller testa programvara.

Därför hänvisar syntetiska data inte till en enskild typ av data som finns i filer med specifika format. Poängen är att möjliggöra analys och delning utan att äventyra integriteten i det ursprungliga datamaterialet, eftersom det är de modellerade värdena som analyseras i stället för de faktiska personuppgifterna.

Överväganden för syntetiska data som bygger på personuppgifter

Syntetiska dataset som baseras på originaldata som innehåller personuppgifter beskrivs vanligtvis med den inneboende och något motsägelsefulla termen "syntetiska persondata". Att skapa syntetiska data med hjälp av data innehållande personuppgifter eller annan känslig information kräver ytterligare skyddsåtgärder.

Ett av de främsta övervägandena med syntetiska personuppgifter är risken för återidentifiering. Syntetiska data kan i vissa fall kan vara så realistiska att de möjliggör återidentifiering av individer i de verkliga data som användes för att träna modellen.

För att minska risken för identifiering bör man därför:

Dokumentera riskbedömningar för återidentifiering med mätvärden såsom k-anonymitet och kvantifiera skillnaderna från originaldatasetet.
Överväga hur avvikande värden påverkar identifieringsriskerna.
Överväga kraven på överensstämmelse med originaldata. Hög överensstämmelse med originaldatasetet kan öka identifieringsrisken, och är inte alltid nödvändig eller ens önskvärt.

Dessutom bör du överväga:

Mappstruktur: Om originaldata är känsliga och inte kan delas, överväg att tillhandahålla en tom platshållarfil eller ett syntetiskt dataset med begränsad detaljrikedom.
Tillhandahållande av provdata: När åtkomsten till datasetet är begränsad kan ett riskfritt provdataset ge användare en överblick av innehållet innan de ansöker om fullständig åtkomst.
Metadata och kodböcker: Du kan göra syntetiska enkätdata lättare att återanvända genom att beskriva variabler i en kodbok med standardformat istället för i en generisk textfil.

När ska jag använda syntetiska data?

Syntetiska data kan användas som dokumentation när du delar data som innehåller personuppgifter med begränsad åtkomst. Det ger potentiella användare möjlighet att få en överblick över innehållet, vilka variabler som finns och hur många observationer de behöver från det verkliga datasetet.
Syntetiska data kan användas för att testa olika statistiska samband utan att behöva ha tillgång till det verkliga datasetet. En förutsättning är då att variablerna i det syntetiska datasetet speglar fördelningen i det verkliga datasetet. Det innebär att man inte bara bör säkerställa att variablernas fördelningar liknar de verkliga, utan även att korrelationer och andra beroenden mellan variabler bevaras.
Syntetiska data kan också användas som ”dummydata” för att ta fram eller testa metoder eller kod utan att behöva ha tillgång till verkliga data. Du skapar denna typ av syntetiska data med så kallat strikt generativa verktyg. I detta fall behöver det syntetiska datasetet inte spegla verkliga data statistiskt utan bara strukturellt, det vill säga ha samma variabelnamn och datatyp. Om data speglar något statistiskt är det i stället i form av en generaliserbar fördelning, till exempel en normalfördelning i en population.

Hur kan jag skapa egna syntetiska data?

För att skapa syntetiska data behöver du använda specialiserade verktyg. Dessa programvaror använder avancerade algoritmer och statistiska modeller för att generera data som bibehåller de statistiska egenskaperna hos det ursprungliga datasetet utan att avslöja känslig information. För att skapa syntetiska data i dessa verktyg följer man i regel dessa steg:

Dataförberedelse: Förbered det ursprungliga datasetet genom att identifiera och hantera saknade värden, rensa data och säkerställa att data är i rätt format för modellering.
Modellträning: Träna en statistisk modell eller maskininlärningsmodell på det ursprungliga datasetet. Modellen lär sig de underliggande mönstren och fördelningarna i data.
Generering av syntetiska data: Använd den tränade modellen för att generera ett nytt dataset som speglar de statistiska egenskaperna hos det ursprungliga datasetet men som innehåller fiktiva värden.
Utvärdering och validering: Utvärdera kvaliteten på de syntetiska data genom att jämföra dess statistiska egenskaper med det ursprungliga datasetet och säkerställa att integriteten och användbarheten bibehålls.

Exempel på verktyg beskrivs i avsnittet Verktyg. Du kan också läsa mer om syntetiska data i forskningsartikeln som i avsnittet Resurser.

Nedan studie ger en introduktion till syntetiska data genom att gå igenom vad syntetiska data är, varför de kan vara användbara och hur man kan gå till väga för att använda dem.

Jordon, J., Szpruch, L., Houssiau, F., Bottarelli, M., Cherubin, G., Maple, C., Cohen, S. N. & Weller, A. (2022). Synthetic Data – what, why and how? arXiv:2205.03257. Länk