
Dokumentera data
Att dokumentera forskningsdata innebär att beskriva de forskningsaktiviteter som utförs, hur data är strukturerade och organiserade och de beslut som fattas under forskningsprocessen. Vilken dokumentation som behövs i ett projekt beror på vilket forskningsområde det handlar. Grundprincipen är att det som behöver dokumenteras är den information som du själv eller någon annan (som kanske kommer från en annan vetenskaplig disciplin) behöver ha för att analysera eller förstå de data som samlats in i projektet.
Ett sätt att samla information som ska dokumenteras är att använda en datahanteringsplan, där du beskriver till exempel hur mappstrukturenÖppnas i en ny tabb i projektet ser ut, hur filerna namngesÖppnas i en ny tabb och vad som skiljer olika filversionerÖppnas i en ny tabb åt. I planen kan du även skriva ned vilken annan dokumentation du behöver som stöd för minnet och för dina arbetsrutiner. Om du gör enstaka avsteg från datahanteringsplanen bör du dokumentera även det. Skulle du märka att du ofta avviker från datahanteringsplanen kan det vara värt att revidera datahanteringsplanen istället för att ständigt dokumentera avvikelser.
I projekt med många medlemmar är det bra att ge en person ansvaret att se till att ni följer de riktlinjer ni tagit fram för dokumentation inom projektet.
Om du är osäker på vad som behöver dokumenteras kan du kontakta det lokala forskningsdatastödetÖppnas i en ny tabb.
Vad ska dokumenteras?
Dokumentationen kan gälla olika delar av arbetet i projektet och datamaterial kan dokumenteras på olika detaljnivå. Sådant som kan vara bra att beskriva är bland annat:
- hur och varför data har samlats in, skapats eller modellerats
- hur olika datafiler och versioner är ordnade
- vilka förändringar som görs mellan olika versioner av datafiler
- vad olika koder, förkortningar, variabelnamn med mera betyder
- vilka program och versioner av program som använts för att behandla och analysera data
- vilka juridiska, etiska och eventuella andra restriktioner som begränsar hur data kan återanvändas
- hur (och om) data har återanvänts inom ramen för andra forskningsprojekt.
Vilken information som är nödvändig avgör du utifrån din expertis om just din sorts datamaterial. Kort sagt dokumenterar du sådant som kan komma att vara av betydelse för att förstå och analysera data. Det kan till exempel handla om att projektet får nya medlemmar, att data behöver analyseras längre fram i samma forskningsprojekt eller i ett annat projekt. Det kan också handla om att forskningsresultaten behöver verifieras, vilket innebär att undersökningen måste kunna reproduceras av andra forskare.
För att du inte ska glömma bort detaljer behöver dokumentationen ske löpande. Det bästa sättet att få med all relevant information om vad du har gjort med data, vilka beslut du har fattat och vilka definitioner du har använt är att skriva ned det med en gång. I idealfallet har du en strukturerad dokumentation som hela tiden är uppdaterad, men det är bättre med en ostrukturerad fil som innehåller all information än ingen fil alls. Den sämsta datadokumentationen är den som inte finns.
Program för dokumentation
Beroende på vilka verktyg du använder för att bearbeta och analysera data finns det olika stöd för dokumentation. Vissa analysprogram har inbyggda funktioner för dokumentation som löpande får med allt som rör forskningsprocessen, till exempel loggning av åtgärder och versionshantering med kommentarer. Andra program har funktioner som visserligen inte är avsedda för dokumentation men som ändå kan användas, även om resultatet kräver visst efterarbete. Många analysprogram saknar däremot en inbyggd möjlighet att dokumentera data och då behöver du ha dokumentationen i en separat fil.
Exempel på möjligheter till dokumentation i program
Inbyggda funktioner: I SPSS, som kan användas för att analysera data från enkätundersökningar, och Dedoose, som kan användas för kvalitativ analys av data, följer det med funktioner för att dokumentera variabler.
Insticksprogram: För Excel finns insticksprogrammet Colectica for Excel som lägger till funktioner för att dokumentera variabler från till exempel observations- eller enkätundersökningar.
Dra nytta av existerande funktioner: I Transana (för kvalitativ analys av text-, bild-, ljud- och videofiler) och Kinovea (videoanalys av mänsklig och annan rörelse) finns det kommentarsfunktioner för dokumentation av data. Kommentarerna kan exporteras, men du kan behöva sammanställa dokumentationen på egen hand.
Dokumentation för återanvändning av data
När projektet avslutas och data ska arkiveras och eventuellt göras tillgängliga sammanställer du en slutversion av dokumentationen. I slutversionen behöver dokumentationen vara fullständig och förståelig.
Om metodiken bakom ett dataset beskrivs i en forskningsartikel som kommer att publiceras med Open Access kan man anta att en sekundäranvändare av datasetet har tillgång till artikeln och den kan då räknas som dokumentation. Du kan till exempel inkludera ett preprint av artikeln som en dokumentationsfil och senare ersätta det med den publicerade artikeln.
Om metodiken inte beskrivs i ett öppet tillgängligt dokument kan man anta att en sekundäranvändare bara har tillgång till datasetet (inklusive dokumentationsfiler) och databeskrivningen. Då måste databeskrivningen eller dokumentationen innehålla en utförlig beskrivning av hur studien har gått till, till exempel hur experiment har förberetts och genomförts.
Det räknas inte som utförlig dokumentation att enbart hänvisa till en publicerad artikel eller rapport som hör ihop med forskningsdata. Även om det finns en artikel med öppen tillgång som beskriver hur data samlades in eller skapades bör du inkludera en README-fil i datasetet som förklarar hur innehållet i datafilerna förhåller sig till det som beskrivs i artikeln.
Det finns inga entydiga krav på hur dokumentationen ska se ut när du delar data, men det måste finnas tillräckligt mycket information för att data ska kunna förstås och återanvändas av en sekundäranvändare. Vad det innebär varierar mellan projekt och discipliner. Du behöver inte dela allt, men fundera över vilka dokumentationsfiler som innehåller information som andra behöver för att kunna analysera data på ett korrekt sätt.
Dokumentationsfiler kan till exempel innehålla:
- variabellistor med förklaringar till variabelnamn, koder och förkortningar
- frågeformulär eller enkäter
- intervjuformulär och intervjuguider
- kodlistor och kodböcker
- länkar till artiklar eller andra publikationer
- metodbeskrivningar eller tekniska rapporter
- information om hur data har bearbetats
- syntaxer för härledda variabler
- slutrapporter
- instruktioner för egenutvecklad programvara som behövs för att hantera data
- fältdagböcker eller loggböcker
- information om vilka juridiska, etiska och eventuella andra restriktioner som begränsar hur data kan återanvändas.
Ett sätt att sammanfatta detta är att skriva en README-fil. Det finns många exempel på sådana mallar (till exempel denna mall för README-filerÖppnas i en ny tabb, framtagen av Cornell University).
En README-fil med dokumentation kan innehålla omfattande metadata och en beskrivning av forskningsmetodiken eller endast beskriva datasetets innehåll och struktur. I det senare fallet bör README-filen också innehålla en kort beskrivning av varje fil eller mapp i datasetet och vad de innehåller. När det gäller tabelldata bör beskrivningen inkludera en variabellista med fullständiga namn på och definitioner av variabler i datafilen. Annan viktig information är måttenheter och definitioner för koder eller symboler som används för att registrera saknade data.
Tänk på att den som vill återanvända forskningsdata kan komma från en annan forskningsdisciplin och att det därför är bra om dokumentationen är begriplig för andra målgrupper. Det underlättar till exempel om du definierar förkortningar och metodbeskrivningar även om de är vanligt förekommande inom din egen disciplin.