x?
Grote historische databestanden
en de disseminatie van*
egevens
ïM
u
IJ
K
gezin
We worstelen soms met grote histori
sche databestanden. Dat geldt voor zowel
de wetenschappers met te weinig kennis
als de wetenschappers die zeer ervaren
zijn met deze data. De laatsten zijn veel
tijd kwijt met de bouw van de specifieke
dataset die ze nodig hebben voor hun
wetenschappelijk onderzoek. In mijn
oratie stel ik drie strategieën aan de orde
waarlangs de bestaande situatie kan wor
den verbeterd: in de opleiding moet meer
aandacht komen voor het werken met dit
soort bestanden, er moeten eenvoudige
subsets uit deze databases beschikbaar
gesteld worden en er moet samengewerkt
worden tussen de verschillende data
bases en wetenschappers, elk met hun
eigen deskundigheid. De basis voor deze
samenwerking wordt gevormd door de
Intermediate Data Structure (IDS). Na een
uiteenzetting over de aard en het voorko
men van grote historische databestanden
ga ik nader in op de laatste twee strate
gieën.
Databestanden worden onderschei
den door de eenheid waarop de daarin
opgenomen gegevens betrekking heb
ben. Zaken als leeftijd en geslacht heb
ben betrekking op een individu. Cijfers
van gemiddelde leeftijden of percentages
mannen hebben betrekking op een hoge
re eenheid. Dit kan een buurt zijn, een
gemeente of bedrijf, maar dit kan ook een
land zijn. Databestanden met individuele
gegevens worden aangeduid als micro
bestanden. Juist vanwege het niet geag
gregeerde karakter zijn het vooral deze
databases die een grote omvang bereiken
en die steeds belangrijker worden voor
wetenschappelijk onderzoek. Bij onder
zoek naar migratie bijvoorbeeld, wordt
niet meer volstaan met het verzamelen
van jaarlijkse vertrekcijfers, maar worden
verhuizende personen zoveel mogelijk
gevolgd tijdens hun gehele levensloop
inclusief het migratiepad. Deze benade
ring door middel van de levensloop omvat
het hele veld van de sociale geschiedenis
doordat het een kader geeft om sociale
verschijnselen te bestuderen op het kruis
punt van individuele en maatschappe
lijke verandering. Historische databases
met levenslopen, zoals de HSN, hebben
het grote voordeel dat er geen honderd
jaar gewacht hoeft te worden alvorens
men de informatie over alle levenslopen
compleet heeft. In het archief ligt een
groot deel van de gegevens als het ware te
wachten om gebruikt te worden.
Historische databases met microdata
van relaties binnen een huishouden. Het
gaat hierbij meestal om 1- tot 5-procents
steekproeven.
Dynamische databases - meestal geba
seerd op bevolkingsregisters - volgen per
sonen in principe gedurende hun gehele
leven. Een typische levensloop kenmerk
te zich door vier verschillende situaties:
a) opgroeien binnen het ouderlijke gezin,
b) inwonen bij andere gezinnen of in
kosthuissituaties als dienstbode, school-
leerling, ambachtsleerling, dienstplich
tige of anderszins, c) als ouder met een
O
D
E
R
L
EIGEN
LEVENSLOOP Onderzoekspersoon
gezin
worden onderscheiden in bestanden
met statische en die met dynamische of
longitudinale gegevens. Statisch bete
kent dat de gegevens alleen geldig zijn
voor een bepaald moment of toestand,
bijvoorbeeld het aantal kinderen in een
bepaald gezin tijdens de volkstelling van
31 december 1879. Dynamisch of longi
tudinaal betekent dat de gegevens kun
nen veranderen, bijvoorbeeld de verschil
lende beroepen die een persoon uitoefent
over een periode van dertig jaar.
Databases met statische gegevens zijn
veelal gebaseerd op de registers van de
originele volkstellingen zoals die in een
groot aantal landen nog steeds worden
gehouden. De veruit belangrijkste data
base op dit gebied is IPUMS. 1PUMS staat
voor Integrated Public Use Microdata
Series. Deze bevat gegevens uit de tien
jaarlijkse Amerikaanse volkstellingen
van 1850 tot 2000. De gegevens zijn over
de jaren zoveel mogelijk vergelijkbaar
gemaakt, bijvoorbeeld door eenzelfde
codesysteem te maken voor alle vormen
eigen gezin en d) inwonen als bejaarde
of behoeftige. Echter, lang niet ieder
een maakte alle fasen mee. Er was een
hoge kindersterfte, niet iedereen kwam
aan een huwelijk toe, kreeg kinderen of
haalde de leeftijd van zestig, zeventig jaar.
Gedurende een leven woonde men in elk
geval met veel andere personen samen.
Buiten het Nederlandse HSN-project kent
men al sinds 1970 vergelijkbare projec
ten, met name in Zweden en in Canada.
Er zijn in de praktijk nogal wat pro
blemen met het gebruik van microdata,
gebaseerd op registraties van lang gele
den. Deze zijn immers niet zo precies als
we van de huidige Gemeentelijke Basis
Administratie gewend zijn. Dit geeft veel
problemen bij de invoer van de gegevens
en resulteert voor een deel van de onder-
zoekspersonen in levenslopen met kleine
32
of grote hiaten. Ook zijn er interpretatiepro
blemen met dateringen. Neem een persoon die
op 1 januari 1870 als 'schoenmaker' staat inge
schreven en op 1 januari 1880 als 'leerlooier'.
Wanneer veranderde hij nu van baan, hoe lang
was hij al schoenmaker en hoe lang bleef hij
dat? Een verhuizing is in de regel überhaupt niet
gedateerd. De datum van de verhuizing moet
dan geschat worden op basis van andere wel
gedateerde gebeurtenissen in de inschrijvingen
op de adressen waartussen verhuisd wordt.
Daarnaast is een longitudinale dataset, zeker ver
geleken met een dataset gebouwd op basis van
een volkstelling, zeer complex. Bedenk dat in de
loop van een leven personen van partner veran
deren, al dan niet in familieverband verschillen
de malen verhuizen en kinderen krijgen die zelf
ook weer komen en gaan. Bovendien werkte de
toenmalige administratie zo dat bij elke verhui
zing er een nieuwe inschrijving werd gemaakt.
Een onderzoekspersoon kan zo wel tientallen
inschrijvingen krijgen, waarbij de gegevens lang
niet altijd goed werden overgeschreven.
Alle grote databases met longitudinale gegevens
kampen met deze problemen en bij onoordeel
kundig gebruik kan er veel fout gaan. Sommige
databasebeheerders weigeren daarom zelfs met
algemene releases te komen waaruit onderzoe
kers kunnen putten. Om aan deze problematiek
het hoofd te bieden stel ik twee strategieën voor:
versimpeling en samenwerking.
Versimpeling werkt op verschillende manie
ren. Er wordt alleen een deel van de gegevens
aangeboden en dit gebeurt in de vorm van een
zogenoemde platte datastructuur. Dit betekent
dat de rijkdom van de dataset slechts zeer gedeel
telijk wordt doorgegeven, maar dat is ook lang
niet altijd nodig. Een simpele dataset bevat bij
voorbeeld alleen een eerste huwelijksdatum en
het aantal keren dat een persoon getrouwd is en
geeft geen aparte tabel voor alle gegevens van
alle mogelijke huwelijken die een persoon gehad
kan hebben. Een vereenvoudiging houdt ook in
dat mogelijke keuzes en onzekerheden voor de
onderzoeker worden opgelost en dat alle gege
vens zoveel mogelijk worden gestandaardiseerd
en gedateerd. Een platte dataset kan gemakke
lijk in een spreadsheet worden geïmporteerd, het
door historici meest gebruikte programma om
met kwantitatieve gegevens te werken. De bij
de database behorende documentatie wordt per
variabele aangeleverd en is beperkt van inhoud.
Wil de historicus of andere gebruiker meer weten
over de data, dan biedt deze wel een directe
ingang op de volledige documentatie.
Op het IISG wordt momenteel gewerkt aan de
zogeheten HSN-datamachine, met daarin de
belangrijkste gegevens uit de HSN-database. Deze
zullen via de website
van de HSN op inter-
actieve wijze in een
plat databestand wor
den aangeboden. De
gebruiker selecteert die
variabelen die hij nodig
heeft en krijgt de infor
matie - mits openbaar
- in een bestand per
e-mail thuisgestuurd.
Deze strategie van ver
simpeling wordt onder
steund door het grote
succes van databases
die zijn gebaseerd op
volkstellingen. Ik denk
hierbij aan het al eerder genoemde IPUMS van
het Minnesota Population Center, waar giganti
sche investeringen ook een vloed aan publicaties
hebben opgeleverd van sociale wetenschappers
en historici. Een belangrijke reden voor dit suc
ces is de simpele structuur waarin de data wor
den aangeboden.
Het bestaan van databases in verschillen
de landen voor verschillende tijden nodigt uit
tot vergelijkend onderzoek. Een pionier op dit
gebied was het Eurasia project. In dit project wer
den de levenslopen onderzocht van historische
bevolkingen van België, Zweden, Italië, Japan
en China. In Life Under Pressure presenteerde
de groep de eerste resultaten. Op basis van een
vergelijkende analyse konden bijvoorbeeld ver
schillen in sterfte worden verklaard uit machts
verschillen tussen generaties en seksen, op basis
waarvan binnen families het voedsel werd ver
deeld of werd gereageerd op economische crises.
Bij het project kwamen echter ook veel proble
men naar voren die samenhingen met verschil
len in de betekenis van de gegevens, de wijze
waarop met onbekende gegevens of ontbrekende
dateringen moest worden omgegaan en, last
but not least, de manier waarop de data waren
gestructureerd en gedocumenteerd. Dit verschilde
per database. Uiteindelijk moest men er vanaf
zien om met één gezamenlijke datastructuur te
werken. En dat waren dan nog maar vijf databa
ses. Inmiddels zijn er meer dan dertig grote his
torische databases met longitudinale microdata.
De uitdaging om deze databases op één lijn te
Lees verder op pagina 35
november 2009
november 2009
33
Door Kees Mandemakers
Wereldwijd bestaan er ongeveer dertig
grote databestanden met historische per
soonsgegevens bestemd voor wetenschap
pelijk onderzoek, waaronder de Historische
Steekproef Nederlandse bevolking (HSN). Het
werken met deze databestanden is niet altijd
eenvoudig. Hoe kunnen we dat verbeteren?
Microbestanden
Schematisch overzicht van de levensloop van een HSN-
onderzoekspersoon.
Problematiek van dynamische data
Platte databestanden
WAAROM JAN EN COR
MET ELKAAR TROUWDEN
y.
De inaugurele rede van Kees
Mandemakers in gedrukte vorm.
Intermediate Data Structure (IDS)
digitaliseringen informatisering
archievenblad
archievenblad