Vetenskaplig kod

På den här sidan finns information om hur du publicerar vetenskaplig kod öppet. Du kan läsa om vad du bör tänka på när du skriver kod, hur du förbereder koden för publicering, var du kan publicera, hur du väljer licens och hur du kan göra för att din kod ska kunna förstås, återanvändas och citeras.

Varför publicera vetenskaplig kod öppet?

Vetenskaplig kod kan användas för att generera, städa, analysera eller visualisera data. Det kan också vara tillämpningar av modeller, arbetsflöden eller programvarupaket. Textfiler skrivna i programspråk kallas för källkod. I programspråk som R och Python kallas källkodsfilerna ibland för skript.

Öppen kod är idag en viktig del av god forskningspraxis och bidrar till transparens, reproducerbarhet och långsiktigt bevarande av forskningsresultat. Även kod som från början har tagits fram inom ett forskningsprojekt utan avsikt att läsas och användas av andra kan ändå vara värdefull att publicera öppet. I andra fall syftar forskningen uttryckligen till att skapa programvara med öppen källkod som kan återanvändas och modifieras av vem som helst.

Anledningar att publicera kod öppet

Transparens: Att tillgängliggöra den kod som hör samman med forskningsdata gör det lättare för andra att förstå hur publicerade data har behandlats och analyserats. Det tillhör god forskningspraxis.
Reproducerbarhet: Genom att publicera data, dokumentation och kod tillsammans kan andra också återskapa, verifiera och bygga vidare på vetenskapliga resultat.
Bevarande: Genom att publicera och arkivera koden på ett bra sätt så bevaras den säkert för framtiden, både för dig själv och andra.
Citering: Du själv och andra kan hänvisa till koden med beständiga länkar och citera den i vetenskapliga publikationer.
Krav från tidskrifter: Du kan uppfylla de krav eller önskemål som många tidskriftsförlag och forskningsfinansiärer har på att kod och data ska delas öppet.

Att tänka på när du publicerar vetenskaplig kod

När du publicerar vetenskaplig kod behöver den kunna förstås och återanvändas av andra. Det är därför viktigt att arbeta med god kodhantering. Nedan går vi in på de viktigaste aspekterna av vad du bör tänka på.

Välj var du vill publicera koden

Välj ett repositorium som kan sätta beständiga identifierare, exempelvis DOI:er, när du publicerar kod, så gör du det möjligt att citera och länka till kodpublikationen på ett hållbart sätt. Publicera helst kod, data och dokumentation som hör ihop tillsammans i ett och samma repositorium. Om de publiceras på olika platser, se till att de hänvisar till varandra med beständiga länkar.

Om du har en specifik version av kod och data som hör samman med ett projekt eller vetenskaplig artikel kan du publicera dina filer tillsammans i ett repositorium för forskningsdata.
- När du använder Svensk nationell datatjänsts verktyg DORISÖppnas i en ny tabb får publicerade dataset en beständig identifierare (DOI) och kod kan publiceras och bevaras tillsammans med datasetet.
Program som du planerar att vidareutveckla och underhålla kan publiceras i ett kodrepositorium som till exempel Gitlab eller Github.
- I Github finns möjlighet att få en DOI för en specifik version av koden via en integration med ZenodoÖppnas i en ny tabb.
- Programpaket kan även publiceras i repositorier för paket, som CRAN Öppnas i en ny tabb eller PyPIÖppnas i en ny tabb.
För att fler ska hitta din publicerade kod kan du registrera den i en ämneskatalog, exempelvis rOpenSciÖppnas i en ny tabb.
Infrastrukturen Software Heritage möjliggör att du kan skapa en långtidssäker publicering av kod som finns på Github eller andra ställen. Du får en beständig identifierare, SWHIDÖppnas i en ny tabb, som kan användas för att referera till koden.
Du kan också få mer synlighet för ditt publicerade program eller paket genom att beskriva det i en vetenskaplig artikel.
- Det finns tidskrifter som är specialiserade på beskrivningar av nya program och ämnestidskrifter som ger möjlighet att publicera speciella artikeltyper för detta ändamål (till exempel ”software notes” eller ”software articles”).
- När du skriver en sådan artikel har du möjlighet att beskriva ditt program mer ingående och du kan också uppmana användare av programmet eller paketet att citera artikeln.

Läs mer

GithubÖppnas i en ny tabb, en plattform där utvecklare kan skapa, lagra, hantera och dela sin kod.
CRANÖppnas i en ny tabb (Comprehensive R Archive Network), ett nätverk för att arkivera och distribuera program för programspråket R.
The Python Package Index (PyPI)Öppnas i en ny tabb, ett repositorium för programvara skriven i Python.
rOpenSciÖppnas i en ny tabb, ett icke-vinstdrivande initiativ som arbetar för öppen och reproducerbar forskning med hjälp av delade data och återanvändbar programvara.
Software HeritageÖppnas i en ny tabb, en infrastruktur för att publicera vetenskaplig kod.
Journal of Open Source SoftwareÖppnas i en ny tabb är en tidskrift som är specialiserad för beskrivningar av nya program.

Skapa en god filstruktur

Strukturera koden du skriver så att den är lätt att förstå

Beskriv den programmeringsmiljö som koden skapades i

Dokumentera din kod och ditt arbetsflöde

Underlätta för andra att förstå hur programmet används, och vad koden gör, genom att dokumentera utförligt.

Bifoga en så kallad README-fil, en textfil som ska vara direkt läsbar för en användare.
- Beskriv i README-filen hur programmet kompileras, körs och används. Inkludera all information som är användbar för en användare att känna till, exempelvis om det finns hjälpkommandon tillgängliga.
- Om den publicerade koden innehåller flera källkodsfiler ska du ange vad varje fil gör och om filerna är avsedda att köras som skript. Om så är fallet, ska det tydliggöras om de ska köras i en viss ordning.
- Inkludera referenser till eventuella andra vetenskapliga publikationer som kod och analysmetoder bygger på.
Använd dig av kommentarer i koden för att beskriva vad koden gör och varför.
Inled varje källkodsfil med ett sidhuvud i form av en kommentar som innehåller:
- Titel.
- En beskrivning av vad filen gör, och hur den relaterar till andra filer i publikationen.
- Version.
- Datum.
- Kodpublikationens identifierare (t.ex. DOI).
- Identifierare eller referenser till relaterade publikationer (ex. en artikel, rapport eller datapublikation).
- Kontaktinformation till skaparen (namn och e-post, samt om relevant ORCID och affiliering).
- Information om eventuell licens.

Ett sätt att dokumentera arbetsflöden är att använda sig av litterär programmering, eller ”literate programming”. Det innebär att kod i programspråk varvas med text skriven i naturligt (mänskligt) språk. Olika lösningar som låter dig arbeta på detta sätt hanterar ofta dokumentationen i uppmärkningsspråket (markup language) Markdown, vilket gör det möjligt att blanda kod och metodbeskrivningar i samma fil.

Med Markdown är det möjligt att skapa reproducerbara rapporter med text och analysresultat som sedan kan konverteras till PDF, Worddokument eller HTML-format. Quarto är ett populärt system för att kombinera kod med Markdown, som kan användas för litterär programmering.
Positron är en integrerad utvecklingsmiljö eller IDE (Integrated Development Environment) med öppen källkod som är avsedd för dataanalys. Den bygger på Visual Studio Code och är särskilt anpassad för R och Python. Det har tagits fram av företaget Posit som också utvecklat RStudio. Det är inte ett Markdown-baserat system, men har inbyggt stöd för Jupyter Notebook, Quarto och andra verktyg för reproducerbara och publicerbara analyser.
Ett annat sätt att dokumentera arbetsflödet i programmet är genom att använda ett skript som automatiserar stegen i arbetet.

Läs mer

QuartoÖppnas i en ny tabb är ett öppet källkodssystem för vetenskaplig dokumentation som kombinerar Markdown med körbar kod i R och Python.
PositronÖppnas i en ny tabb är IDE med öppen källkod för dataanalys från Posit som bygger på Visual Studio Code och stödjer R och Python.
Jupyter NotebookÖppnas i en ny tabb är en välanvänd lösning för att kombinera körbar kod och dokumentation, som stödjer flera programspråk, till exempel Python och R.

Välj en licens som gör källkoden öppen

Testa och granska koden

Informationen på den här sidan bygger på flera olika källor som ger en fördjupad genomgång.

Barnes, N. (2010). Publish your computer code: it is good enoughÖppnas i en ny tabb. Nature, 467(7317), 753. https://doi.org/10.1038/467753a
Barker, M., Chue Hong, N. P., Katz, D. S. et al. (2022). Introducing the FAIR Principles for research softwareÖppnas i en ny tabb. Scientific Data, 9, 622. https://doi.org/10.1038/s41597-022-01710-x
Ivimey-Cook, E. R., Pick, J. L., Bairos-Novak, K. R. et al. (2023). Implementing code review in the scientific workflowÖppnas i en ny tabb. Journal of Evolutionary Biology, 36(10), 1347–1356. https://doi.org/10.1111/jeb.14230
Katz, D. S., Chue Hong, N. P., Clark, T. et al. (2021). Recognizing the value of software: a software citation guide (v2)Öppnas i en ny tabb. F1000Research, 9, 1257. https://doi.org/10.12688/f1000research.26932.2
Lee, B. D. (2018). Ten simple rules for documenting scientific softwareÖppnas i en ny tabb. PLOS Computational Biology, 14(12), e1006561. https://doi.org/10.1371/journal.pcbi.1006561
MIT Communication Lab (n.d.). Best Practices for Coding, Organization, and DocumentationÖppnas i en ny tabb. https://mitcommlab.mit.edu/broad/commkit/best-practices-for-coding-organization-and-documentation
R Core Team (2024). R: A language and environment for statistical computingÖppnas i en ny tabb. Vienna: R Foundation for Statistical Computing. https://www.r-project.org
Trisovic, A., Lau, M. K., Pasquier, T. & Crosas, M. (2022). A large-scale study on research code quality and executionÖppnas i en ny tabb. Scientific Data, 9, 60. https://doi.org/10.1038/s41597-022-01143-6
University of California, Berkeley Library (2023). How to Write Good DocumentationÖppnas i en ny tabb. https://guides.lib.berkeley.edu/how-to-write-good-documentation