ACROBAT - ett multi-infärgat histologiskt dataset från rutindiagnostik av bröstcancer skannat med WSI för digital patologi
ACROBAT-databasen består av 4212 mikroskopibilder (whole-slide-image, WSI) från 1153 kvinnliga primära bröstcancerpatienter. WSIs i datasetet finns tillgängliga i 10X förstoring och visar vävnadsssnitt från bröstcancerresektionsprover som infärgats med hematoxylin och eosin (H&E) eller immunhistokemi (IHC). För varje patient finns en WSI av H&E-färgad vävnad och minst en och upp till fyra WSI av motsvarande vävnad som infärgats med de diagnostiska rutininfärgningarna ER, PGR, HER2 och KI67. Datasetet skapades som en del av CHIME-studien (chimestudy.se) och dess primära syfte var att underlätta ACROBAT WSI registration challenge (acrobat.grand-challenge.org). De histopatologiska preparaten kommer från rutinarbetsflödet inom den diagnostiska patologin och digitaliserades för forskningsändamål vid Karolinska Institutet (Stockholm, Sverige). Skapandet av bilderna liknar det rutinmässiga arbetsflödet för digitalisering av patologibilder, med hjälp av tre olika Hamamatsu WSI-skannrar, närmare bestämt en NanoZoomer S360 och två NanoZoomer XR. WSI:erna i detta dataset åtföljs av en datatabell med en rad för varje WSI, som anger ett anonymiserat patient-ID, infärgnings- eller IHC-antikroppstypen för varje WSI, samt förstoring och mikrometer per pixel på varje tillgänglig upplösningsnivå. Automatiserad utvärdering av registreringsalgoritmers prestanda är möjlig via webbplatsen ACROBAT Challenge, baserad på över 37000 annoterade par från 13 annoterare som riktmärken. Även om det primära syftet med detta dataset var att utveckla och utvärdera WSI-registreringsmetoder, har det potential att möjliggöra forskning inom ramen för digital patologi, till exempel inom områdena infärgningsstyrd inlärning, virtuell infärgning, icke-vägledd inlärning och modeller som är oberoende av färgningsmetod. Datasetet består av tre delmängder, tränings-, validerings- och testset, baserad på ACROBAT WSI registration challenge. Det finns 750 fall i utbildningssetet, för vart och ett av fallen finns en H&E WSI och en till fyra IHC WSI:er tillgängliga, med totalt 3406 WSI:er. Valideringssetet består av 100 fall med totalt 200 WSI och testsetet av 303 fall med totalt 606 WSI. Både för validerings- och testsetet finns en H&E WSI samt en slumpmässigt utvald IHC WSI tillgänglig. WSI:erna anonymiserades genom att de associerade makrobilderna raderats, genom att filnamn med slumpmässiga fall-ID genererats och genom att metadatafält med eventuell persondata skrivits över. Hamamatsu NDPI-filerna konverterades sedan med libvips (libvips.org/). WSI:erna finns tillgängliga som generiska TIFF WSI:er (openslide.org/formats/generic-tiff/) med 10X förstoring och lägre bildnivå. Datasetet är tillgängligt för nedladdning i sju separata ZIP-arkiv, fem för träningsdata (train_part1.zip (71,47 GB), train_part2.zip (70,59 GB), train_part3.zip (75,91 GB), train_part4.zip (71,63 GB) och train_part5.zip (69.09 GB)), ett för valideringsdata (valid.zip 21,79 GB) och ett för testdata (test.zip 68,11 GB). Fillistningar och kontrollsummor i SHA1-format finns tillgängliga för att kunna kontrollera arkiv/dataintegritet vid nedladdning. Även om det är hjälpsamt att användare meddelar SND om eventuella publikationer som använder denna datamängd genom att skicka ett e-postmeddelande till request@snd.gu.se, notera att detta inte är ett krav för att använda uppgifterna.
Datafiler
Datafiler
Dokumentationsfiler
Dokumentationsfiler
Citering och åtkomst
Citering och åtkomst
Metod och utfall
Metod och utfall
Datainsamling
Datainsamling
Geografisk täckning
Geografisk täckning
Administrativ information
Administrativ information
Ämnesområde och nyckelord
Ämnesområde och nyckelord
Relationer
Relationer
Publikationer
Publikationer
Metadata
Metadata
