Effekten af dataficering af arkivmateriale i stor skala

Effekten af dataficering af arkivmateriale i stor skala

Et nyt forskningsprojekt ved Rigsarkivet og Københavns Universitet undersøger, hvordan vores forståelse af fortiden forandres, når historiske arkiver omsættes til digitale data

alt

Dokumenter til data

I mange år er millioner af historiske dokumenter blevet transskriberet og samlet i store databaser ved hjælp af frivillige, forskere og, i de senere år, kunstig intelligens. Resultatet er omfattende historiske datasæt, som danner grundlag for ny forskning i befolkning, familie, arbejde og sociale forhold. Men denne data bliver ikke skabt af sig selv, og de metoder, der anvendes, er ikke neutrale. Derimod påvirker de, hvilken historie vi senere kan fortælle på baggrund af denne data.

Med forskningsprojektet Manglende, Forvanskede eller Normaliserede? Effekten af dataficering af arkivmateriale i stor skala (MiDiN-DatA) undersøger forskere fra Rigsarkivet og Københavns Universitet, hvordan forskellige måder at arbejde med historiske data på former fremtidens historiefortælling.

Projektet er finansieret af Augustinus Fonden med 4,7 mio. kr.

Mennesker, maskiner og deres samspil

Projektets to første dele undersøger, hvordan historiske data formes af de metoder, der bruges til at skabe dem. Her analyseres rent metoder hvor mennesker manuelt indtaster, stærkt automatiserede metoder baseret på AI teknologi, samt hybridmetoder, hvor menneskelig vurdering kombineres med algoritmer.

Formålet er at forstå, hvilke typer information der risikerer at gå tabt, blive forvansket eller normaliseret afhængigt af metodevalget, og hvordan fejl og skævheder kan ophobes eller i nogle tilfælde reduceres. Projektet undersøger samtidig, hvor menneskelig indsigt er afgørende, hvor automatisering er en fordel, og hvordan samspillet mellem de to kan anvendes mere bevidst.

Mennesker som skabere og brugere af data

Projektets tredje del fokuserer på menneskers rolle i dataficeringen af arkiver. Både som skabere og brugere af store historiske datasæt, med særligt fokus på crowdsourcing-projekter gennem de seneste tre årtier.

Mennesker bidrager med erfaring, fortolkning og kontekstforståelse, for eksempel ved transskription af kilder eller udvikling af træningsdata til automatiserede metoder. Samtidig kan menneskelige bidrag også introducere fejlkilder og bias, som påvirker datas kvalitet og anvendelighed.

Projektet analyserer disse spørgsmål ved både at undersøge variation i menneskers arbejde med data og ved at analysere, hvordan forståelsen og brugen af historiske datasæt påvirkes, når data er skabt gennem store og komplekse dataficeringsprocesser.

Fra forskning til praksis

Projektet tager udgangspunkt i Rigsarkivets egne samlinger samt en række igangværende og afsluttede projekter og infrastrukturer, herunder Link-Lives, Mapping Freedom, Rigsarkivets crowdsourcing-portal samt de nyligt finansierede projekter Historisk Personregister (HisPeR) og ChildHomes.

Forankringen i konkrete kilder og forskningsspørgsmål gør det muligt at analysere, hvordan dataficeringsmetoder påvirker empirisk historisk forskning i praksis – blandt andet inden for børnedødelighed, migration og social mobilitet. Samtidig betyder koblingen til eksisterende infrastrukturer, at projektets resultater løbende kan afprøves og indarbejdes direkte i Rigsarkivets arbejde med historiske data i stor skala.

Fakta

  • Projektet ledes af seniorforsker Bárbara Revuelta-Eugercios ved Rigsarkivet sammen med et internt forskerteam (Tobias Kallehauge, Olivia Robinson og Asbjørn Thomsen) og gennemføres i samarbejde med forskere ved Københavns Universitet (lektor, Henriette Roued og professor, Anne Løkke).
  • Forskningsprojektet løber i perioden 2026-2029
  • Projektet er finansieret af Augustinus Fonden med 4,7M kr.
  • Resultaterne af forskningsprojektet blive formidlet gennem videnskabelige publikationer, arrangementer og undervisningsaktiviteter.

Forskere, der deltager i projektet

Rigsarkivet

  • Bárbara Revuelta-Eugercios, seniorforsker og projektleder, specialist i historisk demografi og ulighed i sundhed
  • Asbjørn Thomsen, seniorforsker, med fokus i social mobilitet og landbosamfund
  • Olivia Robinson, historisk datamanager med fokus på migration og kolonihistorie.
  • Tobias Kallehauge, data scientist med fokus på maskinlæring og automatiserede metoder
  • Markus Schunk, crowdsourcing koordinator, med fokus om brugerengagement og datakvalitet

Københavns Universitet

  • Henriette Roued, lektor i digital humaniora ved Institut for Kommunikation, specialist i digital kulturarv, GLAM-sektoren samt borgernes skabelse og brug af digital kulturarven.
  • Anne Løkke, professor ved SAXO-Instituttet med fokus på social-, kultur-, medicin- og sundhedshistorie, ca. 1750–1950.