Arabisk e-bokskorpus
https://doi.org/10.5878/7rbh-gy93
Arabisk e-bokskorpus är en fritt tillgänglig samling av 1 745 böcker böcker på arabiska, publicerade av Hindawi Foundation mellan 2008 och 2024. Böckerna är av olika genrer, bland annat, facktext, romaner, barnlitteratur, poesi och pjäser. Korpusen är tillgänglig i två versioner: html och icke-formaterad ren text. Den senare bäst lämpad för de flesta syften.
För ytterligare detaljer, se Hallberg, A. (2025). An 81-million-word multi-genre corpus of Arabic books. Data in Brief, 60, 111456. https://doi.org/10.1016/j.dib.2025.111456Öppnas i en ny tabb
Citering och åtkomst
Citering och åtkomst
Tillgänglighetsnivå:
Skapare/primärforskare:
Forskningshuvudman:
Data innehåller personuppgifter:
Ja
Typ av personuppgifter:
Datan innehåller namn på upphovsrättsinnehavare, såsom författare och översättare, samt namn på historiska, politiska eller andra offentliga personer som nämns i verken.
Citering:
Språk:
Korpus
Korpus
Avsedd användning:
Språkteknologiskt datorprogram, Mänsklig användning
Textdel
Textdel
Antal språk:
Enspråkig
Språk:
Arabiska (ara)
:
Modalitet:
Skriftspråk
Storlek:
Ord: 80.5 million
Filer: 1,745
Typ av uppmärkning:
Källa:
Länk till andra media:
Text: https://www.hindawi.org
Metod och utfall
Metod och utfall
Tidsperiod(er) som undersökts:
Dataformat/datastruktur:
Geografisk täckning
Geografisk täckning
Geografisk plats:
Administrativ information
Administrativ information
Ansvarig institution/enhet:
Institutionen för språk och litteraturer
Ämnesområde och nyckelord
Ämnesområde och nyckelord
Standard för svensk indelning av forskningsämnen 2025:
Relationer
Relationer
Sammanställer:
Publikationer
Publikationer
Citering:
Hallberg, A. (2025). An 81-million-word multi-genre corpus of Arabic books. Data in Brief, 60, 111456. https://doi.org/10.1016/j.dib.2025.111456Öppnas i en ny tabb
