Handmatige correlatie

14 mei 2021 door Fouke Boss

Correlatie is een belangrijke stap in het onderzoeksproces met Centurial. Meestal wordt correlatie uitgevoerd door het automatische correlatie-algoritme van Centurial. In deze blog kijken we naar handmatige correlatie, waarmee je de resultaten van de automatische correlatie indien nodig kunt verbeteren.

Correlatie

Correlatie is een belangrijke stap in het onderzoeksproces met Centurial, we spraken er al over in eerdere blogs zoals deze over het Correlatiepaneel en ook deze over bewijs in het algemeen. In het kort is het zo dat informatie kan worden gevonden in bronnen. En dus voer je in Centurial informatie altijd in in de context van een bron. Met andere woorden, je kunt in Centurial pas informatie invoeren nadat je eerst de details hebt vastgelegd van de bron waar deze informatie uit komt.

Meestal wordt iedere persoon in je onderzoek in meerdere bronnen genoemd. Correlatie is de stap in het onderzoeksproces waar we als onderzoekers bepalen of [persoon X in bron A] wel echt dezelfde persoon is als [persoon X in bron B]. Hoe weten we nu zeker dat het echt dezelfde persoon X is, en niet een andere persoon die toevallig ook X heet? Meestal nemen we deze beslissing op basis van gezond verstand en logisch redeneren. Als het inderdaad dezelfde persoon betreft, dan verwachten we dat de naam overeenkomt, of in elk geval sterk overeenkomt; we verwachten dat beweringen zoals geboortedatums, geboorteplaatsen, woonplaatsen en overlijdensdatums overeenkomen; en we verwachten overeenkomstige partners en kinderen.

Correlatie is een integraal onderdeel van onze dagelijkse genealogische werk. Genealogische software pakketten ondersteunen deze stap in de regel echter helemaal niet. Centurial is een uitzondering op die regel. Nadat alle informatie en beweringen vanuit de bron zijn overgenomen in Centurial, klik je op de Automatische correlatie knop om de informatie die je zojuist hebt ingevoerd te correleren aan de personen, relaties en gebeurtenissen die reeds aanwezig zijn in je onderzoeksproject.

Centurial bevat een redelijk intelligent correlatie-algoritme om automatisch de juiste correlaties te maken. Het algoritme is gebaseerd op de voorwaarden die we eerder beschreven. Meestal zal het algoritme de informatie precies zo correleren als je verwacht. Maar dit is niet, en kan niet altijd het geval zijn.

Een voorbeeld

Ik heb een Centurial onderzoeksproject samengesteld om als voorbeeld te dienen (hier beschikbaar voor download) waarbij het automatische correlatie-algoritme niet de verwachte resultaten levert. Het project bestaat uit 2 bronnen, toepasselijk genaamd Bron1 en Bron2. Beide bronnen bevatten informatie over twee ouders, Theo van Gogh en Anna Carbentus, en over hun kind, Vincent van Gogh (inderdaad, de schilder):

Nadat we de Bronweergave voor Bron1 hebben geopend, zal Centurial na een klik op de Automatische correlatie knop deze eerste bron correleren. Na correlatie zal Centurial overschakelen naar de Netwerkweergave, dat bestaat uit het netwerkdiagram (1) en het Correlatiepaneel (2):

Laten we eerst eens kijken naar het netwerkdiagram, dat er direct na correlatie zo uitziet:

Zoals je nog wel weet, stellen de kleinere rechthoeken de informatie voor die hoort bij de bron die zojuist is gecorreleerd, terwijl de grotere rechthoeken de informatie weergeven uit alle andere, reeds gecorreleerde bronnen in het project. Aangezien dit de eerste bron is die in dit project gecorreleerd wordt, is er geen informatie uit andere bronnen beschikbaar en zijn de grote rechthoeken dus helemaal leeg.

Nadat je het Correlatiepaneel hebt gesloten (met behulp van de knop in de rechter bovenhoek), wordt alle informatie samengevoegd in de grote rechthoeken:

Nu wordt het interessanter...

Automatische correlatie van de tweede bron is een minder eenvoudige zaak. Hoewel Bron2 informatie bevat over dezelfde 3 personen, met zelfs hun namen precies hetzelfde gespeld, is het eindresultaat toch een beetje een rommeltje. Het ziet er uit alsof er 3 ouders zijn, en 2 kinderen:

Wat is er hier gebeurd?

Eens zien. De enige persoon die er uitziet zoals verwacht is waarschijnlijk Anna Carbentus. De grote roze rechthoek toont de informatie van Bron1, en Centurial heeft inderdaad de informatie uit Bron2 gecorreleerd met de informatie uit Bron1. Dat kun je zien aan het feit dat de kleine rechthoek van Bron2 bovenop de grote rechthoek van Bron1 is geplaatst.

De correlatie van de partner van Anna, vader Theo van Gogh, verliep minder vlotjes. We zien de informatie uit Bron1 weergegeven als de grote blauwe rechthoek in de linkerbovenhoek, maar we zien ook een lege rechthoek in de linkeronderhoek, met daaraan gecorreleerd de informatie over Theo uit Bron2. Dit is nu precies de oorzaak van de rommel: Centurial besloot om de informatie van de beide Anna's te correleren, maar heeft om de een of andere reden ook besloten dat Theo uit Bron1 niet de Theo uit Bron2 kan zijn.

Waarom heeft Centurial de beide Theo's niet gecombineerd?

Doordat Centurial heeft bepaald om de informatie voor Theo niet te correleren, hebben we dus zelfs 2 personen genaamd Theo in ons project. Dit kun je bijvoorbeeld duidelijk zien in de Persoonslijst:

De Persoonslijst levert ook een aanwijzing over waarom Centurial de beide Theo's niet correleerde. De Geboorte kolom toont aan dat de ene Theo geboren is op 2 februari 1822, terwijl de andere Theo geboren werd rond 1823. Nadere inspectie (met behulp van de Analyseweergave voor de geboortedatum) onthult dat de tweede Theo heeft aangegeven "33 jaar oud te zijn op 1 mei 1857", wat betekent dat hij geboren moet zijn tussen 2 mei 1823 en 1 mei 1824. Centurial vond dus een tegenstrijdigheid in de geboortedatums en besloot op basis daarvan dat de tweede Theo een andere persoon moet zijn dan de eerste Theo!

Maar wat is er dan gebeurd met het kind, Vincent?

Maar waarom geeft Centurial dan twee (2!) kinderen weer, wanneer het er toch duidelijk maar één is? Welnu. Anna werd gecorreleerd zoals verwacht, en dus is er nu één enkele Anna aanwezig in ons project. De Theo's werden niet gecorreleerd, wat dus 2 losse personen genaamd Theo opleverde. Echter, op basis van de informatie in de beide bronnen weten we dat beide mannen een partner zijn van Anna. Dit wordt aangegeven door de 2 dubbele lijnen die Anna met beide Theo's verbindt.

Beide bronnen geven ook aan dat Anna en Theo samen een kind hadden, Vincent. Aangezien Centurial verder geen reden had om de informatie van Vincent uit de twee bronnen niet te correleren, hebben we dus uiteindelijk 1 kind Vincent, met Anna als moeder. Maar nu is het dus onduidelijk wie de vader van het kind is: de Theo uit Bron1 of de Theo uit Bron2? Centurial doet hier verder geen uitspraak over, maar laat de analyse van deze situatie over aan ons, de onderzoeker.

Wat Centurial dan wel doet, is duidelijk aangeven dat er iets geks aan de hand is. Dit doet Centurial door Vincent in te tekenen als kind van zowel de eerste als de tweede Theo. Vanwege de manier waarop het diagram wordt getekend, betekent dit dat Vincent tweemaal wordt weergegeven. Om aan te geven dat een persoon meerdere malen aanwezig is in het netwerkdiagram, markeert Centurial de persoon met een indexnummer:

De dubbelzinnigheid rondom de identiteit van de vader wordt ook duidelijk wanneer we het Correlatiepaneel sluiten, en vervolgens één van de Vincents de actieve persoon maken in het netwerk:

Aangezien Vincent nu slechts eenmaal voorkomt in het netwerk, is het indexnummer verwijderd. In plaats daarvan hebben we nu het probleem dat Vincent meerdere vaders heeft. Centurial lost dit op door een stapeltje vaders weer te geven.

Hoe lossen we deze situatie op?

Centurial geeft dus op meerdere manieren aan dat er iets aan de hand is dat onze aandacht verdient. Maar hoe nu verder? We zagen al eerder dat het probleem veroorzaakt wordt doordat er een tegenstrijdigheid is in de geboortedatums van beide Theo's. Wat kan er dus aan de hand zijn?

  • Een eenvoudige verklaring zou kunnen zijn een schrijffout in een van de datums. Misschien had er in Bron1 "2 februari 1824" moeten staan in plaats van "2 februari 1822". Of misschien vergiste Theo zich toen hij gevraagd werd zijn leeftijd op te geven (dit gebeurt zelfs de besten, toch?), en gaf hij aan dat hij 33 was in plaats van 35. Of misschien verstond de ambtenaar van de burgerlijke stand het verkeerd.
  • Of wellicht betreffen de twee bronnen twee heel verschilende gezinnen, toevallig ook met de namen Anna en Theo, beide met een kind genaamd Vincent.
  • Een wat vergezochte theorie zou nog kunnen zijn dat Anna daadwerkelijk met twee verschillende mannen gehuwd is geweest, beide met de naam Theo, en dat ze met beide mannen een kind had. Misschien overleed de eerste Theo en hertrouwde Anna met een broer of neef van haar eerste man, die dezelfde naam Theo droeg.

Om helemaal zeker te zijn wat er hier aan de hand is, kunnen we nog het best op zoek gaan naar aanvullende bronnen. Misschien dat een van die nieuw te vinden bronnen dan een ander licht werpt op de situatie. Echter, op basis van wat we nu weten zou het niet onredelijk zijn om aan te nemen, in elk geval voor nu, dat er een schrijffout of een rekenfout gemaakt is. In dat geval zijn beide Theo's dus dezelfde man!

Handmatige correlatie met behulp van het netwerkdiagram

Handmatige correlatie is de manier voor ons, de gebruiker, om Centurial te laten weten dat we denken dat het veilig is om informatie alsnog te correleren, ook al besliste het automatische correlatie-algoritme anders.

Er zijn meerdere manieren om handmatig een correlatie te verbeteren, en deze maken allen gebruik van slepen & loslaten. In dit specifieke geval is de eenvoudigste manier om de correlatie handmatig te verbeteren door de informatierechthoek te verslepen van de tweede Theo, en deze dan los te laten op de eerste Theo, als volgt:

Zoals je kunt zien lost dit de gehele situatie in één keer op. Het netwerkdiagram ziet er nu uit zoals verwacht, en de bijgewerkte Persoonslijst toont nu inderdaad drie personen:

Deze vorm van handmatige correlatie is steeds beschikbaar direct na automatische correlatie van een bron, en verdwijnt weer wanneer je vervolgens het Correlatiepaneel afsluit. Maar je kunt op ieder moment weer de correlatie van een bron weergeven met behulp van de Bekijk correlatie optie in de Bronweergave:

Een klik op deze knop toont opnieuw de correlatie van deze bron in de Netwerkweergave.

Handmatige correlatie met behulp van het Correlatiepaneel

De tweede methode van handmatige correlatie is door gebruik te maken van het Correlatiepaneel, dat wordt geopend aan de zijkant van het netwerkdiagram. Bovenaan het Correlatiepaneel toont Centurial de bronvermelding (1) van de bron die wordt weergegeven. Daaronder bevat het paneel een lijst van personen waarvoor de correlatie wordt weergegeven (2). Voor iedere persoon worden rechthoeken (3) weergegeven, één voor iedere bron die informatie bevat over die persoon.

Een handige functie van het Correlatiepaneel is dat jij als gebruiker zelf kunt uitkiezen voor welke personen de correlatie wordt weergegeven. Je bent hierbij dus niet beperkt tot de personen uit één bron. Om een of meer personen aan het Correlatiepaneel toe te voegen, selecteer je de Bekijk correlatie optie uit het snelmenu van een persoon in zowel de Persoonslijst als het netwerkdiagram, en wel zo:

Merk hierbij op dat in zowel de Persoonslijst als het netwerkdiagram meerdere personen ineens kunt selecteren door de Ctrl toets ingedrukt te houden tijdens het selecteren van de personen. Daarnaast zul je zien dat bij ieder gebruik van Bekijk correlatie de geselecteerde personen worden toegevoegd aan het Correlatiepaneel. Op deze manier kun je dus alle relevante personen verzamelen.

Om een correlatie handmatig te verbeteren in het Correlatiepaneel, sleep je de informatierechthoek van een persoon en laat je deze los op de persoon waaraan je de informatie wilt correleren:

Ook deze manier lost de situatie op de verwachte manier op.

Nog enkele laatste overwegingen

Voordat we aan het einde van deze blog komen, zijn er nog drie overwegingen om te delen:

Je kunt de correlatie op ieder moment aanpassen

Een interessante functie van Centurial is dat je de correlatie van informatie op ieder moment gedurende je onderzoek kunt aanpassen. Zelfs wanneer informatie al jaren in een bepaalde configuratie is gecorreleerd, kan deze nog steeds worden herschikt, bijvoorbeeld wanneer nieuw bewijs opduikt dat zo iets suggereert. Daarom ook dat we niet twijfelden om beide Theo's te combineren: als we ons vergist blijken te hebben, kunnen we op ieder moment onze fout eenvoudig corrigeren.

Je kunt ook informatie correleren aan een geheel nieuw persoon

Wanneer je bewijs ontdekt dat suggereert dat bepaalde informatie toch niet bij een persoon hoort, maar juist behoort aan een persoon die nog niet in je onderzoek voorkomt, dan kun je deze informatierechthoek verslepen en loslaten in de open ruimte van het netwerkdiagram of het Correlatiepaneel. Er wordt dan een geheel nieuwe persoon aangemaakt op basis van de versleepte informatie.

Zou in dit geval het automatische correlatie-algoritme niet moeten worden verbeterd?

Je zou kunnen beargumenteren dat het automatische correlatie-algoritme in het voorbeeld van deze blog zou moeten hebben besluiten om beide Theo's toch te correleren. Beide mannen dragen dezelfde naam, zijn getrouwd met dezelfde partner, hebben hetzelfde kind Vincent en hebben geboortedatums die dicht bij elkaar liggen. Maar zoals ik al eens eerder heb aangegeven is het verbeteren van het automatische correlatie-algoritme een evenwichtsoefening, waarbij je zoekt naar de juiste verhouding tussen voldoende juiste correlaties en niet te veel onjuiste correlaties.

Zo zul je in dit specifieke voorbeeld zien dat wanneer het verschil in geboortedatums kleiner dan een jaar zou zijn (wanneer Theo zich dus slechts 1 jaar had vergist en niet 2), dat Centurial het dan aannemelijker zou hebben gevonden dat het een vergissing betreft (een mens vergeet soms dat hij z'n verjaardag al gevierd geeft, maar niet een heel jaar lang. Het automatische correlatie-algoritme zal in dat geval beide Theo's correleren. Probeer dit zelf eens met het voorbeeldproject!

Samenvatting

Correlatie is een belangrijk onderdeel van ons onderzoeksproces. In Centurial bepaalt de onderzoeker uiteindelijk hoe informatie wordt gecorreleerd. Het automatische correlatie-algoritme is hierbij slechts een hulpmiddel dat ons een anderszins saaie klus uit handen neemt. Maar als je van mening bent dat het algoritme het mis heeft, kun je de situatie altijd corrigeren met behulp van handmatige correlatie.