Nyt datasæt skal lære maskiner at læse håndskrift

3. januar 2023

Nyt datasæt skal lære maskiner at læse håndskrift

Rigsarkivet har i samarbejde med Københavns Universitet skabt et træningsdatasæt, baseret på danske kirkebøger, der skal gøre maskiner i stand til at læse håndskrevne datoer og tal.

Automatisk tekstgenkendelse

Rigsarkivet er projektleder for Multigenerationsregistret, der skal identificere familierelationer for alle individer født i Danmark fra 1920 til i dag. Sammen med de unikke danske sundhedsdata kan det bidrage til ny viden om for eksempel arvelige sygdomme.

Registret dannes ud fra familieoplysninger fra de håndskrevne kirkebøger, men det kræver at kirkebøgerne bliver digitaliseret. Skulle alle fødselsregistreringerne indtastes manuelt ville det kræve 110 årsværk – det vil sige at 110 fuldtidsansatte skulle arbejde i et helt år for at indtaste de nødvendige oplysninger.

Projektet arbejder derfor på at udvikle algoritmer, der kan transskribere kirkebøger automatisk. For at en machine learning algoritme skal blive i stand til at transskribere indholdet af en kirkebog, er algoritmen nødt til at lære at omsætte et input (den håndskrevne tekst) til et korrekt output (transskriberingen). Det er en svær øvelse, fordi der er mange forskellige håndskrifter i kirkebøgerne.

For at algoritmen kan lære det, skal den kunne træne med data, hvor det korrekte output er kendt. På den måde ved algoritmen, om dens forudsigelse er korrekt eller ej, og den kan justere sig derefter.

Derfor har Rigsarkivet nu udviklet et træningsdatasæt i samarbejde med Københavns Universitet, Center for AI.

Træningsdata

Datasættet er dannet på baggrund af manuelle indtastninger af over 25.000 fødselsregistreringer. De stammer fra kirkebøger fra ti sogne i perioden 1920-1960. Der er både udvalgt store og små sogne, land- og bysogne og sogne fra alle landsdele.

Datasættet består af billeder af fødselsdatoer og løbenumre fra kirkebøgerne. Til hvert billede ligger der en tekstfil med den tilsvarende, transskriberede tekst.

Datasættet kan benyttes til at træne machine learning modeller til genkendelse af håndskrevne datoer og håndskrevne tal generelt. Efter færdigtræning vil en sådan model automatisk kunne transskribere en side fra en kirkebog på blot få sekunder.

Amalie Mygind, Data Scientist på MGR forklarer:

”Datasættet kan benyttes til at træne alle mulige forskellige machine learning modeller, der har til opgave at aflæse håndskrevne tal og datoer; ikke kun til Multigenerationsregistret men også til andre projekter, der ønsker at kunne aflæse tal og datoer fra håndskrevne kilder på en automatisk og effektiv måde. Datasættet består af datoer, hvor månederne er skrevet på dansk. Det vil derfor også kunne bruges til at træne modeller til genkendelse af håndskrevne datoer på sprog, der ligner dansk, såsom svensk og norsk.

Eksempler på håndskrevne datoer og den transskriberede tekst fra træningsdatasættet.

Hvordan bruges datasættet?

Datasættet er delt op i sæt til træning, validering og test for både fødselsdatoer og løbenumre. Træningssættet benyttes til decideret at træne machine learning modellen, og valideringssættet til at teste hvordan modellen klarer sig undervejs i træningen.

Testsættet benyttes, når modellen er færdigtrænet til at teste modellen på data, der for den er ukendt.

Da hvert billede er tilknyttet en transskribering, kan man let teste træningen ved at sammenligne modellens forudsigelse af billedets indhold med den manuelle transskribering.

Datasættet er udarbejdet til at træne automatisk dato- og talgenkendelse af kirkebøger, og anvendelsen er dokumenteret i artiklen Date Recognition in Historical Parish Records, der netop er udgivet i Springer.

Datasættet er open source og er tilgængeligt på GitHub.