x? Grote historische databestanden en de disseminatie van* egevens ïM u IJ K gezin We worstelen soms met grote histori sche databestanden. Dat geldt voor zowel de wetenschappers met te weinig kennis als de wetenschappers die zeer ervaren zijn met deze data. De laatsten zijn veel tijd kwijt met de bouw van de specifieke dataset die ze nodig hebben voor hun wetenschappelijk onderzoek. In mijn oratie stel ik drie strategieën aan de orde waarlangs de bestaande situatie kan wor den verbeterd: in de opleiding moet meer aandacht komen voor het werken met dit soort bestanden, er moeten eenvoudige subsets uit deze databases beschikbaar gesteld worden en er moet samengewerkt worden tussen de verschillende data bases en wetenschappers, elk met hun eigen deskundigheid. De basis voor deze samenwerking wordt gevormd door de Intermediate Data Structure (IDS). Na een uiteenzetting over de aard en het voorko men van grote historische databestanden ga ik nader in op de laatste twee strate gieën. Databestanden worden onderschei den door de eenheid waarop de daarin opgenomen gegevens betrekking heb ben. Zaken als leeftijd en geslacht heb ben betrekking op een individu. Cijfers van gemiddelde leeftijden of percentages mannen hebben betrekking op een hoge re eenheid. Dit kan een buurt zijn, een gemeente of bedrijf, maar dit kan ook een land zijn. Databestanden met individuele gegevens worden aangeduid als micro bestanden. Juist vanwege het niet geag gregeerde karakter zijn het vooral deze databases die een grote omvang bereiken en die steeds belangrijker worden voor wetenschappelijk onderzoek. Bij onder zoek naar migratie bijvoorbeeld, wordt niet meer volstaan met het verzamelen van jaarlijkse vertrekcijfers, maar worden verhuizende personen zoveel mogelijk gevolgd tijdens hun gehele levensloop inclusief het migratiepad. Deze benade ring door middel van de levensloop omvat het hele veld van de sociale geschiedenis doordat het een kader geeft om sociale verschijnselen te bestuderen op het kruis punt van individuele en maatschappe lijke verandering. Historische databases met levenslopen, zoals de HSN, hebben het grote voordeel dat er geen honderd jaar gewacht hoeft te worden alvorens men de informatie over alle levenslopen compleet heeft. In het archief ligt een groot deel van de gegevens als het ware te wachten om gebruikt te worden. Historische databases met microdata van relaties binnen een huishouden. Het gaat hierbij meestal om 1- tot 5-procents steekproeven. Dynamische databases - meestal geba seerd op bevolkingsregisters - volgen per sonen in principe gedurende hun gehele leven. Een typische levensloop kenmerk te zich door vier verschillende situaties: a) opgroeien binnen het ouderlijke gezin, b) inwonen bij andere gezinnen of in kosthuissituaties als dienstbode, school- leerling, ambachtsleerling, dienstplich tige of anderszins, c) als ouder met een O D E R L EIGEN LEVENSLOOP Onderzoekspersoon gezin worden onderscheiden in bestanden met statische en die met dynamische of longitudinale gegevens. Statisch bete kent dat de gegevens alleen geldig zijn voor een bepaald moment of toestand, bijvoorbeeld het aantal kinderen in een bepaald gezin tijdens de volkstelling van 31 december 1879. Dynamisch of longi tudinaal betekent dat de gegevens kun nen veranderen, bijvoorbeeld de verschil lende beroepen die een persoon uitoefent over een periode van dertig jaar. Databases met statische gegevens zijn veelal gebaseerd op de registers van de originele volkstellingen zoals die in een groot aantal landen nog steeds worden gehouden. De veruit belangrijkste data base op dit gebied is IPUMS. 1PUMS staat voor Integrated Public Use Microdata Series. Deze bevat gegevens uit de tien jaarlijkse Amerikaanse volkstellingen van 1850 tot 2000. De gegevens zijn over de jaren zoveel mogelijk vergelijkbaar gemaakt, bijvoorbeeld door eenzelfde codesysteem te maken voor alle vormen eigen gezin en d) inwonen als bejaarde of behoeftige. Echter, lang niet ieder een maakte alle fasen mee. Er was een hoge kindersterfte, niet iedereen kwam aan een huwelijk toe, kreeg kinderen of haalde de leeftijd van zestig, zeventig jaar. Gedurende een leven woonde men in elk geval met veel andere personen samen. Buiten het Nederlandse HSN-project kent men al sinds 1970 vergelijkbare projec ten, met name in Zweden en in Canada. Er zijn in de praktijk nogal wat pro blemen met het gebruik van microdata, gebaseerd op registraties van lang gele den. Deze zijn immers niet zo precies als we van de huidige Gemeentelijke Basis Administratie gewend zijn. Dit geeft veel problemen bij de invoer van de gegevens en resulteert voor een deel van de onder- zoekspersonen in levenslopen met kleine 32 of grote hiaten. Ook zijn er interpretatiepro blemen met dateringen. Neem een persoon die op 1 januari 1870 als 'schoenmaker' staat inge schreven en op 1 januari 1880 als 'leerlooier'. Wanneer veranderde hij nu van baan, hoe lang was hij al schoenmaker en hoe lang bleef hij dat? Een verhuizing is in de regel überhaupt niet gedateerd. De datum van de verhuizing moet dan geschat worden op basis van andere wel gedateerde gebeurtenissen in de inschrijvingen op de adressen waartussen verhuisd wordt. Daarnaast is een longitudinale dataset, zeker ver geleken met een dataset gebouwd op basis van een volkstelling, zeer complex. Bedenk dat in de loop van een leven personen van partner veran deren, al dan niet in familieverband verschillen de malen verhuizen en kinderen krijgen die zelf ook weer komen en gaan. Bovendien werkte de toenmalige administratie zo dat bij elke verhui zing er een nieuwe inschrijving werd gemaakt. Een onderzoekspersoon kan zo wel tientallen inschrijvingen krijgen, waarbij de gegevens lang niet altijd goed werden overgeschreven. Alle grote databases met longitudinale gegevens kampen met deze problemen en bij onoordeel kundig gebruik kan er veel fout gaan. Sommige databasebeheerders weigeren daarom zelfs met algemene releases te komen waaruit onderzoe kers kunnen putten. Om aan deze problematiek het hoofd te bieden stel ik twee strategieën voor: versimpeling en samenwerking. Versimpeling werkt op verschillende manie ren. Er wordt alleen een deel van de gegevens aangeboden en dit gebeurt in de vorm van een zogenoemde platte datastructuur. Dit betekent dat de rijkdom van de dataset slechts zeer gedeel telijk wordt doorgegeven, maar dat is ook lang niet altijd nodig. Een simpele dataset bevat bij voorbeeld alleen een eerste huwelijksdatum en het aantal keren dat een persoon getrouwd is en geeft geen aparte tabel voor alle gegevens van alle mogelijke huwelijken die een persoon gehad kan hebben. Een vereenvoudiging houdt ook in dat mogelijke keuzes en onzekerheden voor de onderzoeker worden opgelost en dat alle gege vens zoveel mogelijk worden gestandaardiseerd en gedateerd. Een platte dataset kan gemakke lijk in een spreadsheet worden geïmporteerd, het door historici meest gebruikte programma om met kwantitatieve gegevens te werken. De bij de database behorende documentatie wordt per variabele aangeleverd en is beperkt van inhoud. Wil de historicus of andere gebruiker meer weten over de data, dan biedt deze wel een directe ingang op de volledige documentatie. Op het IISG wordt momenteel gewerkt aan de zogeheten HSN-datamachine, met daarin de belangrijkste gegevens uit de HSN-database. Deze zullen via de website van de HSN op inter- actieve wijze in een plat databestand wor den aangeboden. De gebruiker selecteert die variabelen die hij nodig heeft en krijgt de infor matie - mits openbaar - in een bestand per e-mail thuisgestuurd. Deze strategie van ver simpeling wordt onder steund door het grote succes van databases die zijn gebaseerd op volkstellingen. Ik denk hierbij aan het al eerder genoemde IPUMS van het Minnesota Population Center, waar giganti sche investeringen ook een vloed aan publicaties hebben opgeleverd van sociale wetenschappers en historici. Een belangrijke reden voor dit suc ces is de simpele structuur waarin de data wor den aangeboden. Het bestaan van databases in verschillen de landen voor verschillende tijden nodigt uit tot vergelijkend onderzoek. Een pionier op dit gebied was het Eurasia project. In dit project wer den de levenslopen onderzocht van historische bevolkingen van België, Zweden, Italië, Japan en China. In Life Under Pressure presenteerde de groep de eerste resultaten. Op basis van een vergelijkende analyse konden bijvoorbeeld ver schillen in sterfte worden verklaard uit machts verschillen tussen generaties en seksen, op basis waarvan binnen families het voedsel werd ver deeld of werd gereageerd op economische crises. Bij het project kwamen echter ook veel proble men naar voren die samenhingen met verschil len in de betekenis van de gegevens, de wijze waarop met onbekende gegevens of ontbrekende dateringen moest worden omgegaan en, last but not least, de manier waarop de data waren gestructureerd en gedocumenteerd. Dit verschilde per database. Uiteindelijk moest men er vanaf zien om met één gezamenlijke datastructuur te werken. En dat waren dan nog maar vijf databa ses. Inmiddels zijn er meer dan dertig grote his torische databases met longitudinale microdata. De uitdaging om deze databases op één lijn te Lees verder op pagina 35 november 2009 november 2009 33 Door Kees Mandemakers Wereldwijd bestaan er ongeveer dertig grote databestanden met historische per soonsgegevens bestemd voor wetenschap pelijk onderzoek, waaronder de Historische Steekproef Nederlandse bevolking (HSN). Het werken met deze databestanden is niet altijd eenvoudig. Hoe kunnen we dat verbeteren? Microbestanden Schematisch overzicht van de levensloop van een HSN- onderzoekspersoon. Problematiek van dynamische data Platte databestanden WAAROM JAN EN COR MET ELKAAR TROUWDEN y. De inaugurele rede van Kees Mandemakers in gedrukte vorm. Intermediate Data Structure (IDS) digitaliseringen informatisering archievenblad archievenblad

Periodiekviewer Koninklijke Vereniging van Archivarissen

Archievenblad | 2009 | | pagina 16