Dansk Demografisk Database

KildeIndtastningsProjektet

Af Hans Jørgen Marker

Forhistorie og motivering

I Skandinavien er der siden 1700-tallet produceret demografiske kilder af meget høj kvalitet. Det, der særligt adskiller de skandinaviske kilder fra andre landes, er den meget høje komplethed, eller på statistiksprog: Det meget lille frafald. De danske demografiske kilder udgør i denne sammenhæng ingen undtagelse. Selv om vi nok må antage noget frafald i de ældre folketællinger(1), er dette slet ikke af den størrelsesorden, som man opererer med internationalt. Kilderne fra tiden før 1850 blev ikke fuldt udnyttet statistisk af samtiden. Adskillige af de befolkningsmål, som man i dag ville have beregnet, blev ikke uddraget den gang. Imidlertid er kildematerialet bevaret på individniveau. Derfor ville det kunne lade sig gøre efterfølgende at udlede megen ny viden om datidens samfund, såfremt disse kilder kunne underkastes edb-behandling. Edb-behandling forudsætter imidlertid, at kilderne findes i en maskinlæsbar udgave. En sådan udgave kan kun fremstilles ved hjælp et meget stort indtastningsarbejde. Alene for folketællingernes vedkommende er den nødvendige arbejdsindsats af størrelsesordenen 1.000 årsværk. Derfor har edb-behandlingerne af vores demografiske kilder hidtil betjent sig af relativt små udsnit. Blandt undersøgelser, der anvender edb-behandling af danske demografiske kilder, kan særlig peges på Hans Christian Johansens to store undersøgelser(2), hvor der blev opereret med datamængder omkring 100.000 registreringer. Yderligere er der især i slutningen af halvfjerdserne og begyndelsen af firserne lavet mange mindre undersøgelser med nogle få tusinde registreringer. Store indtastningsprojekter har nok været planlagt, men er ikke blevet gennemført. Det har ikke været anset for en farbar vej at gennemføre de store indtastninger med offentlige midler, som det er tilfældet i udlandet (især Sverige). Fondsfinanciering er naturligvis en mulighed, men ikke til det samlede indtastningsarbejde(3). Uden offentlige midler eller fondsmidler har der ikke hidtil aftegnet sig nogen mulighed for at gennemføre et så stort indtastningsprojekt.

Amatørhistorikerne

Imidlertid har Danmark mange seriøse amatørhistorikere og gode relationer mellem de professionelle historikere og amatørerne. Den typiske amatørhistoriker er lidt oppe i årene og de fleste, men dog ikke alle, er interesserede i slægtsforskning. En del af amatørhistorikerne skriver kilder af. Det har nogle amatørhistorikere gjort i hundrede år. På landsarkiverne kan man finde produkter af denne aktivitet. Det kan være håndskrevne registre til kirkebøger, maskinskrevne afskrifter af dele af tingbøger, seddelregistre over personer og meget andet. Specielt for arkivarerne på landsarkiverne har det ofte været vanskeligt at forstå formålet med denne afskrivningsaktivitet, idet kilderne jo fortsat findes, og hvis de kan skrives af, kan de jo også læses. Forklaringen skal nok søges i, at der simpelthen er en arbejdsglæde forbundet med at omsætte en vanskeligt tilgængelig tekst til en mere tilgængelig form. En vigtig dimension i denne arbejdsglæde er naturligvis overbevisningen om, at det arbejde, man udfører, kan lette vejen til kilderne for andre. Med inddragelse af computere opstår der meget interessante muligheder i kraft af, at mange mennesker finder glæde ved at omsætte kilderne. I det omfang det lykkes at koordinere indsatsen, har vi netop herigennem den indtastningsressource, som vi ikke kan finde på anden vis.

Når det drejer sig om edb-anvendelse inden for historiefaget, er foreningen Databehandling i Slægtsforskningen, DIS-Danmark, en central organisation for amatørhistorikerne. Som navnet angiver, er udspringet for foreningen genealogisk. (Når forkortelsen er DIS-Danmark, hænger det sammen med, at der også i andre nordiske lande er DIS'er). Ved siden af genealogier arbejder DIS med registrering og systematisering af kildeindtastninger. DIS-Danmark er en meget stor forening, som ydermere er i kraftig vækst.

Dansk Data Arkiv

Et andet forhold, som også er særligt dansk, er, at Dansk Data Arkiv, DDA, gennem hele sin historie har set det som en central opgave at involvere sig i projekter med edb-anvendelse inden for historiefaget. Herved adskiller DDA sig fra andre landes tilsvarende institutioner, idet disse traditionelt har koncentreret deres aktiviteter om samfundsvidenskab i snævrere forstand og først i de senere år har fået interesse for historisk databehandling. DDA's engagement i historie har ytret sig gennem en række forskellige initiativer. I sammenhæng med Kildeindtastningsprojektet har det især haft betydning, at DDA i 1989 afholdt et kursus i programmelsystemet Kleio, og at DDA i 1991 var vært for den internationale konference for Association for History and Computing. Ved begge disse lejligheder blev der skabt kontakt mellem DDA og medlemmer af DIS.

Initiativer

SAKI

Samarbejdskomiteen for Kildeindtastninger, SAKI, blev oprettet i 1992. Der var ved sammensætningen lagt vægt på en bred repræsentation såvel arkivfagligt som historisk. Medlemmerne i SAKI er Finn Andersen, Landsarkivet for Sjælland, Bjarne Birkbak, Sammenslutningen af Lokalhistoriske Arkiver, Svend-Erik Christiansen, DIS-Danmark, Ole Degn, Landsarkivet for Nørrejylland, Gunner Lind, Københavns Universitet, Hans Jørgen Marker, DDA, Poul Olsen, Rigsarkivet, og Elsebeth Paikin, DIS-Danmark.

SAKI gennemførte sit arbejde hurtigt, idet man over tre møder (med det første i juni 1992) nåede frem til i marts 1993 at have formuleret SAKI-modellen, der er publiceret i SAKI-vejledningen(4). På basis af SAKI-modellen er der fastlagt datastrukturer for folketællinger, matrikler, lægdsruller og kirkebøger. Disse datastrukturer er publiceret i SAKI-vejledningen(5). Grundmodellen for folketællinger i SAKI er indarbejdet i WinKip programmet.

SAKI-modellen

I SAKI-modellen indskærpes den meget vigtige skelnen mellem kildelæsning og kildetolkning. Grundmodellen indeholder de strukturelementer, der skal til for at afspejle kildens indhold. Det indskærpes i vejledningen, at tekstfelterne i grundmodellen kun er beregnet til transskription af kilden, altså for eksempel at hvis kilden angiver en persons navn til Niells Veffuer, er det netop denne stavemåde, der skal findes i feltet kildenavn. I grundmodellen er defineret elementerne navn, dato, alder eller fødselsdato, erhverv, civilstand, ægte/uægte, begivenhed, sted, forbindelse (til andre personer i datamaterialet) og henvisning (til det sted i kilden, hvorfra informationerne er taget). For visse felter, som i kilden egentlig er kategoriserede, tillades også kodning i grundmodellen. Når kodning er tilladt for et felt, er de tilladte koder også foreskrevet i SAKI-vejledningen. Et af de felter, hvor kodning er tilladt, er civilstand. Det er ikke anset for et vigtigt mål for Kildeindtastningsprojektet at konstatere alle anvendte stavemåder af ordet 'ugift'.

Det fortsatte arbejde

SAKI fortsatte sit arbejde med styring og evaluering af Kildeindtastningsprojektet frem til 1997. Der blev afholdt møder flere gange hvert år. Ved disse møder blev der især foretaget smårettelser til formaterne og givet kommentarer og forslag til organiseringen af DDA's servicering af indtastere og andre brugere.

Siden 1997 har DDA båret hovedansvaret for organiseringen af projektet. Arbejdsbyrden med organiseringen og antallet af interessenter har betinget at ansvaret har måttet lægges i fastere institutionelle rammer.SAKI er nu erstattet af en KildeIndtastningsKomite (KIK), der mødes ca. tre gange årligt og diskuterer KIP projektet.

Kildeindtastningsprogrammer

De strukturer, som er angivet i SAKI-vejledningen, kan oprettes i ethvert databaseprogram. I projektets indledende fase modtog DDA derfor data i flere forskellige formater. Med den stigende aktivitet i projektet blev dette dog uholdbart, så nu modtages kun de formater, som er fastlagt ved de godkendte indtastningsprogrammer og kommaseparerede. Det er naturligvis vigtigt, at formaterne overholdes. Dette sikres lettest ved at anvende et kildeindtastningsprogram. Oprindelig leveredes DOS programmet KIP 1.0 til folketællinger. Siden foråret 1996 leveredes KIP 2.0, som også kan anvendes til andre kilder herunder kirkebøger.Endelig er der i 1998-99 blevet udviklet et Windowsbaseret program til folketællingsindtastning WinKip, som kan downloades fra DDD's hjemmeside. Programmerne giver indtastningsstøtte til SAKI-grundmodellen.

KIP 1.0 og 2.0 var teknisk set baseret på en runtimeudgave af Paradox for DOS. Det medfører, at de filer, som dannes af KIP-programmerne, er Paradox-datafiler. De kan således viderebehandles med Paradox, hvis man har adgang til dette program. Endvidere kan de konverteres til andre databaseformater. WinKip kan tilsvarende exportere Paradox-filer og andre formater.

KIP og WinKIP indeholder nogle hjælpemidler til søgning og rapportering. KIP er således ikke kun anvendeligt som indtastningsprogram, men kan også bruges som søgeprogram til KIP-indtastninger, man har modtaget fra DDA.

Det er en forudsætning for at modtage og bruge KIP og WinKIP, at de data, man indtaster, bliver afleveret til DDA til fri udlevering.

Projektaktiviteter i DDA

I perioden 1995-96 kunne DDA øge sine aktiviteter i forbindelse med Kildeindtastningsprojektet i kraft af en bevilling fra Undervisningsministeriets andel af tips-og lottomidlerne. Siden den tid er det ikke lykkedes at finde tilsvarende ekstern financiering.

Koordination

I Kildeindtastningsprojektet er koordinationen central, idet det naturligvis er vigtigt at undgå spild af ressourcer. Koordinationen foretages af DDA.

Inden man begynder en indtastning, skal man henvende sig til DDA og få tildelt et indtastningsnummer. Indtastningsnumrene er entydige, så indtastningerne kan skelnes fra hinanden.

Koordinationen sikrer, at der ikke er flere, der går i gang med at indtaste den samme kilde. Hvis to er interesserede i samme kilde, søger DDA i stedet at skabe en kontakt, således at den ene kan læse korrektur for den anden.

Modtagelse af data i DDA

DDA fungerer som central for modtagelse og distribution af data fra Kildeindtastningsprojektet. Kildeindtasterne afleverer direkte til DDA. Ved afleveringen til DDA foretages en katalogisering af de enkelte datamaterialer. Data får tildelt et katalognummer og en titel. Endvidere bliver data optaget i en oversigtsfolder. Når dette er sket, sendes et brev til indtasteren med en meddelelse herom. Oversigtsfolderen kan ses på Internettet og opdateres ugentligt.

Sammentælling af registreringer indkommet fra Kildeindtastningsprojektet

I forbindelse med Kildeindtastningsprojektet får DDA en væsentlig forøgelse af sin beholdning af historisk-demografiske datamaterialer. Nogle af de data, der kommer ind, er i Kildeindtastningsprogrammets format. Andre er indtastet i andre formater, men bliver afleveret nu i kraft af den opmærksomhed, der er omkring Kildeindtastningsprojektet. Den tabel, som omtales nedenfor, indeholder de materialer, som er afleveret i Kildeindtastningsprogrammets format, samt enkelte, som af DDA eller frivillige hjælpere er konverteret til dette format. Registreringer, som afviger fra SAKI-modellens anbefalinger, og som ikke er i Kildeindtastningsprogrammets format, er ikke talt med.

Tabellen over dækningsgrader mv. viser i første søjle, om der er tale om folketællinger, FT, eller kirkebøger, KB. Disse to typer omfatter alt, hvad der indtil videre er afleveret af data, der overholder SAKI-modellen. Anden søjle viser antallet af materialer. Det vil for folketællinger sige antal sogne fra det pågældende år. For kirkebøger betyder det antal bøger. Tredje søjle viser folketællingsåret. Fjerde søjle viser befolkningstallet i det pågældende år. Femte søjle viser antal personer i de afleverede datamaterialer. Sjette søjle viser hvor stor en procentdel, det afleverede udgør af det samlede befolkningstal for året. De følgende søjler viser hvor store dækningsgrader der var ved udgangen af de pågældende år.

Indtastningsforlæg

Et af de store problemer for indtasterne er at skaffe egnede indtastningsforlæg. Naturligvis er det altid en mulighed at sidde på det nærmeste landsarkiv med arbejdet, men for mange er det en lettelse, hvis arbejdet kan foregå hjemme. I så fald er der brug for et indtastningsforlæg, som kan anvendes der. Derfor har Rigsarkivets publikumsafdeling overdraget DDA sit sæt Xerox-kopier af folketællingerne 1787 til 1850 for hele landet og 1885 for København. Disse folketællingsprotokoller udlånes på nærmere bestemte vilkår til de deltagere i Kildeindtastningsprojektet, som har kvalificeret sig ved tidligere afleveringer. Samme personkreds har også mulighed for at købe papirkopier af kilder fra DDA til en særlig lav pris (omkostningsdækning). Det ville naturligvis være mere rimeligt om disse omkostninger kunne dækkes af anden vej, således at frivillige indtastere ikke skulle betale store beløb(6) for at få materiale til at indtaste ud fra.

I forbindelse med Statens Arkivers almindelige kopispredning har også DDA fået mikrokortkopier af de færdiggjorte folketællinger. Endvidere har DDA indkøbt et mindre antal kirkebogsmikrokort. Disse mikrokort udlånes på samme vilkår som ovenfor omtalte protokoller.

Endelig har DDA fået et protokolsæt fra Landsarkivet for Nørrejylland med de nørrejyske folketællinger. Da dette protokolsæt er dubletter i forhold til protokollerne fra Rigsarkivet behandles udlån fra dubletsættet meget liberalt.

Udlevering

De datamaterialer, som stammer fra Kildeindtastningsprojektet, indgår i DDA's beholdning på samme vilkår som DDA's øvrige datamaterialer. Det vil sige, at den sædvanlige udleveringsprocedure bliver anvendt for KIP-materialerne. Den, der skal bruge et KIP-materiale, skal altså udfylde en bestillingsblanket. På denne blanket lover man at overholde udleveringsbetingelserne. Blanketten indsendes sammen med en beskrivelse af, hvad man vil bruge datamaterialet til.

Når man bestiller KIP-datamaterialer fra DDA, betaler man et administrationsgebyr på 40 kr. per datamateriale. Det er vigtigt at påpege, at det ikke er data, man betaler for. Data tilhører stadig indtasteren, som således beholder alle kommercielle rettigheder til data.

Det forhold, at dataudleveringen er gratis for brugerne, betyder dog ikke, at den ikke kræver ressourcer i DDA. Dataudleveringen er gratis-ydelse, der tilvejebringes med indsats af offentlige midler. Man skal derfor ikke holde sig tilbage fra at bede om datamaterialer, som man har en anvendelse for, men man bør på den anden side ikke bestille datamaterialer langt ud over sine behov.

En anden måde, hvorpå data fra Kildeindtastningsprojektet er tilgængelige, er på CD-ROM. Den første CD-ROM blev udsendt i 1996. Der er siden udsendt en ny CD-ROM hvert år. Indtil 1998 indeholdet CD-ROM'en alle de indtastninger, der på produktionstidspunktet var indkommet til Kildeindtastningsprojektet. I 1999 var der tale om en supplerings-CD-ROM, som indeholdt alt det, der ikke var med i 1998. Fra bestillingsssiden for cd-rommer er der adgang til oversigter over indholdet på de nyeste cd-rommer. ed CD-ROM-salget indgås udleveringsaftalen på samme måde, som man ved softwarekøb indgår på licensbetingelser.

Dansk Demografisk Database

Ud over at tilgængeliggøre KIP-materialerne på disketter og CD-ROM er det naturligvis også relevant at anvende internettet. En sådan løsning er også etableret og blev åbnet for offentligheden i december 1996. Dansk Demografisk Database findes på http://ddd.dda.dk.

Dansk Demografisk Database blev etableret i samarbejde med Statens Arkivers Filmningscenter og Det danske Udvandrerarkiv. Der blev ydet støtte til etableringen fra Kulturnet Danmark.

Teknisk set er DDD et system af databaser, som tilgås gennem søgeskærme. DDD indeholder databaser over folketællinger, udvandrere, indvandrere og andre personalhistoriske lister.

Kursusvirksomhed

For at opnå en høj kvalitet af det indtastede er indtasternes omhu og engagement naturligvis den centrale forudsætning, men deres viden om kilderne og de centrale problemer omkring kildetransskriptioner er naturligvis også af stor betydning. DDA har derfor set det som sin opgave at gennemføre en kursusvirksomhed for kildeindtastere.

Kildeindtastningskurser

DDA tilbyder at holde kursus for interesserede kildeindtastere. Forudsætningen er, at man kan stille et lokale til rådighed, der enten er udstyret med computere eller hvor deltagerne har mulighed for at medbringe deres egen computer. De nærmere detaljer for program og indhold aftales individuelt mellem DDA og talsmanden for kursusdeltagerne.

Et typisk eksempel på kursusindhold vil være er en indføring i grundlæggende problemer ved fortolkning af kilder. Dette vises ved analyser af eksempler på maskinlæsbargørelse af originalkilder i forskellige formater. Yderligere demonstreres Kildeindtastningsprogrammet. Programmets opbygning og betjening gennemgås og indøves. Ved disse praktiske øvelser kommer ofte mange eksempler frem på problemer ved kildefortolkning og om god praksis ved indtastning.

Kurserne indeholder også en beskrivelse af folketællingerne. Disse er vokset meget i størrelse fra 1787 til 1970, den periode hvorfra tællingslisterne findes. Dette skyldes ikke alene det stærkt voksende befolkningstal, men også at mængden af oplysninger voksede. Endelig brugte man efterhånden mere plads på opstillingen af oplysningerne.

Endelig kan der på kurserne være en beskrivelse og demonstration af CD-ROM-en og Dansk Demografisk Database

Juridiske forhold

Det gælder for KIP-data som for alle andre data i DDA, at ejendomsforholdet, copyrighten, forbliver hos donor. Copyrighten bliver altså ikke overdraget til DDA ved afleveringen. DDA får derimod visse afgrænsede rettigheder med hensyn til videregivelse af materialet. For KIP'ernes vedkommende gælder det videregivelse til ikke kommerciel brug.

Den, der modtager et datamateriale fra DDA, har aldrig lov til at give materialet videre. Den rettighed er DDA nemlig aldrig bemyndiget til at give videre til tredjemand. Den, der har modtaget et materiale fra DDA, og som står over for en person, som også gerne vil gøre brug af materialet, skal altså fremfor at videregive materialet henvise til DDA. Det medfører kun en mindre ulempe, idet DDA jo ikke tager penge for data.

De data, der indtastes med KIP, er altid personhenførbare. Det vil sige, at de hører til samme kategori af data, som de data, Registertilsynet interesserer sig for. Imidlertid er der indtil videre ikke KIP-skabeloner til datatyper, hvortil der kræves dispensation ved arkivadgang.

Skulle det på længere sigt ske, at DDA modtager personhenførbare data, som er yngre end de sædvanlige arkivaldersgrænser, vil de blive behandlet på samme måde som i Statens Arkiver i øvrigt. Der vil altså være fri adgang til materialer, der er ældre end 80 år, og dispensationsmuligheder for materialer mellem 50 og 80 år. Dispensationspraksis er i Statens Arkiver i øvrigt således, at der normalt ikke gives adgang til hele kilder. Dispensationen vil derfor sjældent være relevant for KIP-materialerne. Udtræk af delmængder af datamaterialer er ikke en gratis-ydelse hos DDA.

1. Ole Degn: Alle skrives i mandtal, Folketællinger og deres brug, København 1991, s. 12

2. Data fra disse undersøgelser er tilgængelige gennem DDA, som DDA-0101 til DDA-0106 og DDA-0181 og DDA-0182, Udvalgte landsogne 1741-1801, og DDA-0230 Den danske bybefolkning i det 18. århundrede (Odense)

3. En undtagelse er her indtastningen af udvandrerprotokollerne, som netop nu foregår på Udvandrerarkivet.

4. SAKI-vejledningen er publiceret som DDA-Nyt nr. 65, 1993, pp. 7-137. Heraf udgør beskrivelsen af SAKI-modellen pp. 57-76.

5. DDA-Nyt, nr. 65, 1993, pp. 89-123

6. For folketællingen fra et middelstort landsogn fra f.eks. 1901 er prisen ofte af størrelsesordenen 2500 kr.

7. På Paradox-sprog hedder formatet Fixed Length Text. Det er et format, der generelt kan anvendes til at tilgå datamaterialer, som ligger i DDA's arkivformat. Når filerne først er konverteret til Paradox, kan de derfra konverteres til mange andre PC-filformater.