De Goudse adresboeken van 1867 tot en met 1950 zijn gescand en door middel van Optical Character Recognition (OCR) zijn de teksten herkend. Alhoewel de adresboeken hiermee doorzoekbaar worden zijn deze nog niet beschikbaar als data. Het doel van dit Vele Panden project is om de inwonerslijsten van de adresboeken om te zetten in data zodat we deze in de Gouda Tijdmachine kunnen koppelen.

Werkwijze

De in het OCR-proces herkende teksten zijn verzameld en opgeschoond. Deels handmatig, zodat er "adresboekregels" zijn die gecontroleerd / gecorrigeerd kunnen worden. Hierna zijn de adresboekregel met behulp van een slim algoritme opgeknipt in een 6-tal velden: de achternaam, de initialen (die veelal tussen () staan), het beroep (of bedrijf), de straat, de wijkletter en het nummer.

Als u aan de slag gaat krijgt u uit een willekeurig adresboek een adresregel voorgeschoteld. Aan de linkerkant de invoerveld met daarin de herkende tekstonderdelen en rechts de scan van de betreffende pagina uit het adresboek. Hier kunt u op inzoomen zodat de regel waar het om gaat goed in beeld is (dit werkt het snelst door het muiswieltje boven op uw muis te gebruiken) en dat de lichtblauwe 'lineaal' op de juiste regel staat (wanneer u op de Opslaan knop klikt zal de scan naar boven bewegen zodat de lichtblauwe 'lineaal' op de volgende regel komt).

Helemaal links boven staat de tekst die in het OCR-proces is herkend. Aan u de taak om te controleren of de 6 invoervelden correct zijn gevuld op basis van de scan en herkende tekst. Wanneer velden niet zijn herkend, dan is het betreffende invulveld geel gemarkeerd. In bovenstaand voorbeeld staat er bij beroep te veel tekst, die halen we weg. De wijkletter is niet ingevuld, hier vullen we L in (en niet I zoals in de herkende tekst staat!!). Dan klikt u op de 'Opslaan' knop en verschijnt de volgende adresregel. Veelal zal dit op dezelfde pagina van het adresboek zijn, dus de scan verandert niet.

NB: bij de start van de invoer staat de cursor automatisch in het eerste invoerveld (achternaam). Het de Tab-toets springt u naar het volgende invoerveld. Na het laatste invoerveld (Nummer) springt u met de Tab-toets naar de 'Opslaan' knop, die u met de Enter-toets ook kunt activeren.

Opletten!

Een deel van de te herkennen tekst bestaant uit cijfers. Het kan voorkomen dat u denkt, is dat nu een 3 of een 5? Sterker nog, vaak dacht de OCR-herkenning een 3 te zien in plaats van een 5.
Maar, veelal is het een 5, want de 3 wordt anders gedrukt (de OCR heeft het ook dikwijls mis!):

Omdat de OCR vaak ten onrechte een 3 herkende waar het eigenlijk een 5 is wordt het Nummer invulveld geel gemarkeerd als deze een 3 bevat. Een extra herinnering om het nummer goed te controleren.

Hoofdletters waar het ook opletten is, zijn de G en de C:

Correctie van gegevens

Voor dit project geldt dat duidelijke fouten en omissies hersteld dienen te worden! Ziet u in één van de velden een duidelijke fout van de computer, corrigeer de invoer dan. Dit geldt ook voor missende punten in het initialen veld (dus: in dit veld zien we graag {hoofdletter}{punt} {hoofdletter}{punt} ...).

Tip: kopieertip

Soms heeft het slimme algoritme sommige velden niet weten te vullen. Hieronder een voorbeeld waar het beroep- en het straatveld leeg zijn. Aan u de taak om deze te vullen. U hoeft hierbij de tekst niet persé in te typen, want in dit geval is de tekst wel in het OCR-proces herkend zoals in het grijze 'Herkend' vlak is te zien. U kunt nu met de muis één of meer worden selecteren. Het selecteren van één woord kan heel snel door er op te dubbelklikken. Hierna klikt u op het invoerveld waar de betreffende tekst heen moet, zodra u klikt wordt de tekst er naartoe gekopieerd.


Aan de slag met de adresboeken Aanmelden